2024年1月16日发(作者:赫连甜恬)
第29卷 第2期 V01.29 No.2 重庆理工大学学报(自然科学) Journal of Chongqing University of Technology(Natural Science) 2015年2月 Feb.2015 doi:10.3969/j.issn.1674-8425(z).2015.02.015 基于C4.5决策树的大学生笔记本电脑 购买行为的数据挖掘 毛乾任,王朝斌 (西华师范大学计算机学院,四川南充摘 637000) 要:以大学生笔记本电脑购买行为作为研究对象,由问卷调查得到数据,运用TipDM 数据挖掘工具,通过数据预处理和K一均值聚类,使用C4.5决策树对大学生消费者关于笔记本 电脑的购买决策和购买行为进行特征规则提取,采用交叉分析方法进行详细的验证分析。为笔 记本电脑经销商、生产商分析大学生消费群体的购买活动提供参考。 关键词:笔记本电脑;购买行为;C4.5决策树;数据挖掘 文献标识码:A 文章编号:1674—8425(2015)02—0076—06 中图分类号:TP399 Data Mining on College Students’Laptop Purchase Behavior Based on Decision Tree C4.5 MAO Qian—ren,WANG Chao—bin (Computer School,China West Normal University,Nanehong 637000,China) Abstract:Taking the purchase behavior of college students on laptop as the research subject,this pa— per collected relevant data from online questionnaires.Based on the TipDM data mining platformthis paper implemented the clustering analysis with the technology of K—means clustering.Using the C45 decision tree on laptop purchase decisions and buying behaviors,we extracted students’customer characteristic rules and purchase behavior in detail.Cross analysis method was used to make detailed analysis of the validation.This paper provides marketing reference resources of college students’put. chase to the dealers,manufacturers of laptop. Key words:laptop;purchasing behavior;C4.5 decision tree:data mining 当代大学生在笔记本消费方面存在巨大的潜 在市场。考虑到笔记本市场的影响力和独特性, 有必要将其作为一个独特的细分市场来加以重视 和研究 。目前针对这方面的研究多局限于问卷 收稿日期:2014—11—02 基金项目:四川省教育厅项目(08ZA158) 作者简介:毛乾任(1990一),男,四川南充人,硕士研究生,主要从事基于网络的计算机应用技术研究;王朝斌 (1970一),副教授,主要从事计算机网络及信息安全技术方面研究。 引用格式:毛乾任,王朝斌.基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘[J].重庆理工大学学报:自 然科学版,2015(2):76—81. Citation format:MAO Qian—ren,WANG Chao—bin.Data Mining on College Students’Laptop Purchase Behavior Based on Decision Tree C4.5[J].Journal of Chongqing University of Technology:Natural Science,2015(2):76 81
毛乾任,等:基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘 调查分析的结果。c4.5决策树是ID3树的改进, 77 能处理离散型和连续性属性,并且分类精度高,分 类规则易于理解 J。本文采用问卷调查得到原 始数据后,经 一均值聚类,用c4.5决策树算法 提取特征规则,可更加具体和直观地得到大学生 笔记本购买行为的规律。 1 购买行为研究过程与方法 根据笔记本电脑行业消费者的行为特征设计 问卷,并进行问卷调查。通过问卷调查分析,对所 图1分析过程与方法 收集的信息数据进行挖掘建模,进而提取有意义 的特征和规律。具体包括确定分析指标、设计问 卷调查、模型构建和模型评估4个方面。 1.1 影响大学生购买行为的分析 大学生消费者对笔记本的购买决策因素细分 为主观和客观2个方面,细分结果见表1。 表1影响购买行为的因素细分结果 客观因素是笔记本电脑商品本身对大学生电 脑消费者的影响;主观因素则是从消费者对产品 的满意度方面来进行分析,是顾客的实际使用感 受、需求和期望 。 1.2问卷调查设计 为的主观因素,设置的问题如下:Q12下列笔记本 的产品定位中,你会优先考虑购买哪一种:Q12.1 超极本、Q12.2 2合1电脑、Q12.3游戏影音本、 Q12.4轻薄便携本、Q12.5全能学生本、Q12.6家 庭娱乐本、Q12.7时尚丽人本、Q12.8商务办公 本等。 1.3样本数据的挖掘建模 通过在线问卷调查平台发出问卷,共收回128 份来自全国各地的问卷。随机选取100份问卷作 为研究对象。问卷设计的目的在于将消费调查的 TipDM在线平台数据挖掘属于使用挖掘的一 问题具体化,并把问卷结果保存为excel文档作为 建模的数据输入。问卷设计主要从影响购买行为 的指标人手,采用提问选答的形式。针对影响购 种。整个挖掘过程可以分为3个相依赖的阶 段 卜 :数据收集和预处理、K一均值聚类分析和 C4.5决策树特征规则提取。 1.4数据收集和预处理 对于采用问卷调查收集到的数据资料,必须 买行为的客观因素,设置的问题如下:Q2你中意 的CPU型号:Q2.1酷睿i7、Q2.2酷睿i5、Q2.3酷 睿i3、Q2.4四代i7、Q2.5四代i5、Q2.6四代i3、 对其进行预处理,转换成可被数据挖掘工具分析 处理的数据类型 。在K均值建模时,提取的数 Q2.7奔腾/赛扬双核、Q2.8等。针对影响购买行
78 重庆理工大学学报 据全部转换为二进制1,0。l代表属性值Yes,0 代表属性值No。在进行特征规则的提取时,excel 格式文档中的数据将全部转换为字符型后再作为 特征规则提取的输入。 1.5数据建模 1.5.1 K均值聚类 均值聚类 迭代次数:5 聚类分析结果统计:== 42(42%) 各簇中样本数及百分比 0 1 58(58%) TipDM系统将样本聚成2类:第一类(A类) 有42个样本;第二类有(B类)有58个样本。表2 列举了聚类输出结果的部分列和行。 聚类结果为2类,0类即A类,1类即B类。 聚类完成后,借助特征规则的提取进行详细的聚 类分析。 表2聚类结果部分列和行 1.5.2 C4.5决策树的特征规则提取 Brand =N:B(38.0) 叶子数:7 c4.5决策树算法通过学习数据建立决策树, 用于提取每一聚类类别的特征口 。在输入聚类 数据之前,要将导人的样本数据全部转换为字符 树的大小:13, 正确分类样本及百分比:100% 错误分类样本及百分比:O% 型数据作为特征规则挖掘的数据输入,分别选取 训练集和测试集的样本数据,生成规则列表。通 规则2:C4.5决策树 Clustering NO.=A Sex=W After service=N 过多次交换重设的数据样本的训练集和检测集, 重复执行可挖掘出列表所给出的所有规则 以聚类结果B类的特征规则1为例: 特征规则提取: 规则1:C4.5决策树 Sex=W Price=N 。 Handheld=Y:Y(12.0/3.0) Handheld=N CPU=N:N(4.0/1.0) CPU=Y Memory=N Brand =Y:A(13.0) Brand =N OS=N:N(3.0) OS=Y:Y(5.0/2.0) Memory:Y:Y(4.0) After service=Y:N(8.0/2.0) After service=N:B(15.0) After service=Y:A(4.0) Price=Y:A(19.0) Sex=M Brand =Y Sex:M:Y(6.0) Clustering NO.=B Price=N:B(5.0) Sex:W:N(15.0) Sex=M Price=Y:A(6.0)
毛乾任,等:基于c4.5决策树的大学生笔记本电脑购买行为的数据挖掘 CPU=N:N(6.0) CPU=Y 79 B类15个样本,百分比为25.86%,由此可找到决 定行为的特征属性。 在10个正确样本百分比为85%及以上的决策 Display Card=N:Y(6.0/1.0) Display Card=Y 树中,A类的特征规则决定因素主要有品牌、操作系 统、外壳设计以及摄像头像素。B类的特征规则决 定因素主要有CPU、显卡、硬盘容量和电池续航时 问和价格。下面用分层交叉进行具体验证。 Screen size:Y:Y(9.0/3.0) Screen size=N:N(22.0/7.0) 叶子数:12 树的大小:23 正确分类样本及百分比89% 错误分类样本及百分比11% 2大学生消费者的行为特征分析 交叉分析用于分析2个变量之间的关系E 7]。 在导出聚类结果后,把聚类的A类和B类作为自 变量。而把要研究分析的其他属性作为因变量。 这里的因变量分别是影响购买行为的主观因素、 可以看出采用规则1划分的正确分类百分比 为100%。如果sex的属性值为w即性别为女,且 Price值为No,如果Brand值为Yes,输出A类,占 A类13个样本的百分比为30.95%;否则Brand 值为N0,如果After service值为N0,输出B类,占 客观因素。输出结果如下: 表3客观因素交叉分析 Cluster 电脑城 二手市场 大型商场 网上购买 小计
80 2.1 两类消费行为趋于理性 重庆理工大学学报 接口数量高出A类消费者约12个百分点,而对操 总体来看,A、B类消费者对CPU的要求是所 有因素中最高的,分别占到了各自客观考虑因素 的74.29%,84.48%;其次,两类消费者购买因素 所占比例超过50%的还有使用需求,散热和内存 容量。大学生在购买因素中,可以根据自己的使 作系统、笔记本厚度、便携和外壳材质的要求 较低。 从主观因素来看,B类消费者只在价格要求 方面高于A类消费者14.86个百分点,而对于外 观设计、材质、品牌要求和是否促销,并不是主要 的考虑因素。 用需求,依次参考CPU型号、散热和内存容量。这 几个因素也是生产商应该考虑的重心。 2.2 A类消费者购买行为 从客观因素可以看出:A类消费者在操作系 统、外壳材质以及摄像头像素、散热几个因素方面 的要求普遍高于B类消费者。在购买途径中,A 类消费者绝大部分(85.71%)去电脑城购买,少部 分选择大型商场购买,基本不在二手市场和网上 购买。并且这类消费者比较看重笔记本电脑的独 特功能以及售后服务,分别高出B类消费者27.33 个百分点和18.73个百分点。 从主观因素分析,A类消费者在品牌和促销 活动方面的考虑因素分别高出B类消费者25.60 个百分点和26.70个百分点,并在笔记本独特的 新功能要求上超出B类27.29个百分点。这类消 费者大部分选择在线下电脑城购买,在线上的购 买几率很低。可见,此类大学生消费者追逐个性 化的独特风格,并且对价格的看重远不及B类高, 消费大头已经从实用化趋向时尚化。 商家对于这类消费者在抓品牌效应的同时, 可以经营便携性较强,外观设计时尚的笔记本,并 且可以适当延长售后服务期,在实体店里开展一 些促销活动,从而在很大程度上吸引A类消费者。 而对于生产商,产品要保证很好的便携性、外壳材 质和外观设计。一些新功能的推出会更加吸引这 部分消费者。家庭娱乐本、轻薄便携本、时尚丽人 本、超极本将受到这类消费者的青睐,同时在产品 配置上,生产商可以适当调低成本。 2.3 B类消费者购买行为 从客观因素分析,B类消费者对CPU、显卡类 型、硬盘容量和电池续航时间的要求远高于A类 消费者。B类消费者对CPU的要求高出A类消费 者约10个百分点,对显卡类型要求高出A类消费 者约24个百分点,电池续航时间和硬盘容量以及 在购买途径中,B类消费者在网上购买的需 求远远大于A类。这类消费者在购机过程中可以 选择市面上一些配置较好的游戏影音本、商务办 公本、2合1电脑等;品牌上可以考虑如宏基、华 硕、联想及ThinkPad等配置较好、价格不高的品 牌。B类大学生消费者在购买笔记本时青睐商家 降价促销和赠送购机礼包。商家在营销上可以抓 住这一点,在经营模式上可以选择线上实行购买 优惠礼品套机的策略,在线下开展降价促销活动, 或者采用赠送购机礼包的方式来吸引B类消费 者。对于生产商,则要根据这类消费者看重配置 如CPU、显卡、电池、硬盘容量的特点,均衡配置、 外观设计和价格三方面的成本。 3分层交叉进行误差验证 用分层交叉技术评估期望泛化能力,即预测 模型对新鲜样本的适应能力 。模型泛化能 力验证结果如下: 分层交叉验证误差=== 正确分类样本及百分比96 96% 错误分类样本及百分比 4 4% Kappa统计 0.9l7 4 平均绝对误差 0.035 6 均方根误差 0.174 相对绝对误差 7.304 8% 相对平方根误差 35.236 6% 样本总数 100 混淆矩阵: a b <一分类为 39 3 l a=A 1 57 l b=B 从决策树的混淆矩阵中可以看出:在大学生
I二 毛乾任,等:基于c4.5决策树的大学生笔记本电脑购买行为的数据挖掘 类别A的实例中,39个被正确预测为A类,3个被 错误预测。在类别为B的实例中,57个被正确预 测为B类,正确分类百分比为96%,错误分类百分 比为4%,验证说明模型具有较高的新样本数据适 应能力。 清华大学出版社,2009.322—324. 81 [7] 樊宁.K均值聚类算法在银行客户细分中的研究[J]. 计算机仿真,2011(3):369—372. [8] 瞿小宁.K均值聚类算法在商业银行客户分类中的应 用[J].计算机仿真,2011,06:357—360. [9] 关云鸿.改进K一均值聚类算法在电信客户分类中的 参考文献: 应用[J].计算机仿真,2011,08:138—140. [10]Menardi G,Torelli N.Training and assessing classiifca— tion rules with imbalnaced data[J].Data Mining and 荣晓华,何成义.大学生自我概念与购买决策关系的 Knowledge Discovery,2014,28(1):92—122. 实证研究——以笔记本电脑市场为例[J].吉林工商 [11]Sathyadevan S,Remya R Nair.Comparative Analysis of 学院学报,2012(1):48—51. Decision Tree Algorithms:ID3.C4.5 and Random Forest Honkanen P,Olsen S,Myrland O.Preference—based Seg- [J].Computational Intelligence in Data Mining—Volume mentation:A study of meal preferences among Norweigian 1 Smart Innovation,Systems and Technologies Volume, teenager[J].Journal of consumer Behavior,2004,3(3): 2015,31:549—562. 235—250. [12]1wata T,Sawada H.Topic model for analyzing purchase Mobasher B.Web Usage Mining In John Wang,Encyclo— data with price information[J].Data Mining and Knowl— pedia of Data Warehousing and Mining[M].Idea Group, edge Discovery,2013,26(3):559—573. 2006. [13]汤克明.不确定数据流中频繁数据挖掘研究[D].南 Jefrey Lijfifjt,Panagiotis Papapetrou.A statistical signiif· 京:南京航空航天大学,2012. cance testing approach to mining the most informative set [14]王萍.基于数据挖掘技术的消费者行为研究[D].长 of patterns[J].Data Mining and Knowledge Discovery, 春:吉林大学,2004. 2014,28(1):238—263. [15]李军.基于用户行为挖掘的数据流管理技术研究 林嘉.系统设计和基于用户行为分析[D].广州:中州 [D].北京:北京邮电大学,2012. 大学,2013. 俞勇,薛贵荣,韩定一,等.Web数据挖掘[M].北京: (责任编辑杨黎丽) (上接第51页) ings[C]//Abstract of China 6th International Symposium [4] 刘志全,张鹏顺,沈允文.高速滚子轴承的热分析模型 on Tribology.Beijing:[S.n.],2011. [J].机械科学与技术,1997,16(4):607—611. [1O] 崔立,王黎钦.航空发动机高速滚子轴承动态特性分 [5] 崔力,郑建荣.考虑刚性转子非线性振动的圆柱滚子 析[J].航空学报,2008,29(2):492—498. 轴承动态特性研究[J].振动与冲击,2010,29(10): [11] 王军领,郑翔,吴焕.圆柱滚子轴承动静态有限元分析 113一l17. [J].扬州大学学报:自然科学版,2012,15(2):43 [6] 陈观慈,王黎钦.高速球轴承的生热分析[J].航空动 46. 力学报,2007,22(1):163—168. [12] 易学平.圆柱滚子轴承力学特性分析及其数值模拟. [7] 刘志全.高速滚子轴承热分析及油膜测试[D].哈尔 [D].哈尔滨:哈尔滨工程大学,2009. 滨:哈尔滨工业大学,1996. [13] Brown J R.Forster N H.Operating temperature in lubri— [8] 张占立,王燕霜.高速圆柱滚子轴承动态特性分析 cated rolling element bearings ofr gas turbines[R].AIAA [J].航空动力学报,2011,26(2):397—403. 20oo一3027.2o00:1268—1275. [9]Kotzalas M N,Doll G L,Evnas R D.The Impo ̄ance Of Coating Durability On The Performance Of Roller Bear· (责任编辑刘舸)
2024年1月16日发(作者:赫连甜恬)
第29卷 第2期 V01.29 No.2 重庆理工大学学报(自然科学) Journal of Chongqing University of Technology(Natural Science) 2015年2月 Feb.2015 doi:10.3969/j.issn.1674-8425(z).2015.02.015 基于C4.5决策树的大学生笔记本电脑 购买行为的数据挖掘 毛乾任,王朝斌 (西华师范大学计算机学院,四川南充摘 637000) 要:以大学生笔记本电脑购买行为作为研究对象,由问卷调查得到数据,运用TipDM 数据挖掘工具,通过数据预处理和K一均值聚类,使用C4.5决策树对大学生消费者关于笔记本 电脑的购买决策和购买行为进行特征规则提取,采用交叉分析方法进行详细的验证分析。为笔 记本电脑经销商、生产商分析大学生消费群体的购买活动提供参考。 关键词:笔记本电脑;购买行为;C4.5决策树;数据挖掘 文献标识码:A 文章编号:1674—8425(2015)02—0076—06 中图分类号:TP399 Data Mining on College Students’Laptop Purchase Behavior Based on Decision Tree C4.5 MAO Qian—ren,WANG Chao—bin (Computer School,China West Normal University,Nanehong 637000,China) Abstract:Taking the purchase behavior of college students on laptop as the research subject,this pa— per collected relevant data from online questionnaires.Based on the TipDM data mining platformthis paper implemented the clustering analysis with the technology of K—means clustering.Using the C45 decision tree on laptop purchase decisions and buying behaviors,we extracted students’customer characteristic rules and purchase behavior in detail.Cross analysis method was used to make detailed analysis of the validation.This paper provides marketing reference resources of college students’put. chase to the dealers,manufacturers of laptop. Key words:laptop;purchasing behavior;C4.5 decision tree:data mining 当代大学生在笔记本消费方面存在巨大的潜 在市场。考虑到笔记本市场的影响力和独特性, 有必要将其作为一个独特的细分市场来加以重视 和研究 。目前针对这方面的研究多局限于问卷 收稿日期:2014—11—02 基金项目:四川省教育厅项目(08ZA158) 作者简介:毛乾任(1990一),男,四川南充人,硕士研究生,主要从事基于网络的计算机应用技术研究;王朝斌 (1970一),副教授,主要从事计算机网络及信息安全技术方面研究。 引用格式:毛乾任,王朝斌.基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘[J].重庆理工大学学报:自 然科学版,2015(2):76—81. Citation format:MAO Qian—ren,WANG Chao—bin.Data Mining on College Students’Laptop Purchase Behavior Based on Decision Tree C4.5[J].Journal of Chongqing University of Technology:Natural Science,2015(2):76 81
毛乾任,等:基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘 调查分析的结果。c4.5决策树是ID3树的改进, 77 能处理离散型和连续性属性,并且分类精度高,分 类规则易于理解 J。本文采用问卷调查得到原 始数据后,经 一均值聚类,用c4.5决策树算法 提取特征规则,可更加具体和直观地得到大学生 笔记本购买行为的规律。 1 购买行为研究过程与方法 根据笔记本电脑行业消费者的行为特征设计 问卷,并进行问卷调查。通过问卷调查分析,对所 图1分析过程与方法 收集的信息数据进行挖掘建模,进而提取有意义 的特征和规律。具体包括确定分析指标、设计问 卷调查、模型构建和模型评估4个方面。 1.1 影响大学生购买行为的分析 大学生消费者对笔记本的购买决策因素细分 为主观和客观2个方面,细分结果见表1。 表1影响购买行为的因素细分结果 客观因素是笔记本电脑商品本身对大学生电 脑消费者的影响;主观因素则是从消费者对产品 的满意度方面来进行分析,是顾客的实际使用感 受、需求和期望 。 1.2问卷调查设计 为的主观因素,设置的问题如下:Q12下列笔记本 的产品定位中,你会优先考虑购买哪一种:Q12.1 超极本、Q12.2 2合1电脑、Q12.3游戏影音本、 Q12.4轻薄便携本、Q12.5全能学生本、Q12.6家 庭娱乐本、Q12.7时尚丽人本、Q12.8商务办公 本等。 1.3样本数据的挖掘建模 通过在线问卷调查平台发出问卷,共收回128 份来自全国各地的问卷。随机选取100份问卷作 为研究对象。问卷设计的目的在于将消费调查的 TipDM在线平台数据挖掘属于使用挖掘的一 问题具体化,并把问卷结果保存为excel文档作为 建模的数据输入。问卷设计主要从影响购买行为 的指标人手,采用提问选答的形式。针对影响购 种。整个挖掘过程可以分为3个相依赖的阶 段 卜 :数据收集和预处理、K一均值聚类分析和 C4.5决策树特征规则提取。 1.4数据收集和预处理 对于采用问卷调查收集到的数据资料,必须 买行为的客观因素,设置的问题如下:Q2你中意 的CPU型号:Q2.1酷睿i7、Q2.2酷睿i5、Q2.3酷 睿i3、Q2.4四代i7、Q2.5四代i5、Q2.6四代i3、 对其进行预处理,转换成可被数据挖掘工具分析 处理的数据类型 。在K均值建模时,提取的数 Q2.7奔腾/赛扬双核、Q2.8等。针对影响购买行
78 重庆理工大学学报 据全部转换为二进制1,0。l代表属性值Yes,0 代表属性值No。在进行特征规则的提取时,excel 格式文档中的数据将全部转换为字符型后再作为 特征规则提取的输入。 1.5数据建模 1.5.1 K均值聚类 均值聚类 迭代次数:5 聚类分析结果统计:== 42(42%) 各簇中样本数及百分比 0 1 58(58%) TipDM系统将样本聚成2类:第一类(A类) 有42个样本;第二类有(B类)有58个样本。表2 列举了聚类输出结果的部分列和行。 聚类结果为2类,0类即A类,1类即B类。 聚类完成后,借助特征规则的提取进行详细的聚 类分析。 表2聚类结果部分列和行 1.5.2 C4.5决策树的特征规则提取 Brand =N:B(38.0) 叶子数:7 c4.5决策树算法通过学习数据建立决策树, 用于提取每一聚类类别的特征口 。在输入聚类 数据之前,要将导人的样本数据全部转换为字符 树的大小:13, 正确分类样本及百分比:100% 错误分类样本及百分比:O% 型数据作为特征规则挖掘的数据输入,分别选取 训练集和测试集的样本数据,生成规则列表。通 规则2:C4.5决策树 Clustering NO.=A Sex=W After service=N 过多次交换重设的数据样本的训练集和检测集, 重复执行可挖掘出列表所给出的所有规则 以聚类结果B类的特征规则1为例: 特征规则提取: 规则1:C4.5决策树 Sex=W Price=N 。 Handheld=Y:Y(12.0/3.0) Handheld=N CPU=N:N(4.0/1.0) CPU=Y Memory=N Brand =Y:A(13.0) Brand =N OS=N:N(3.0) OS=Y:Y(5.0/2.0) Memory:Y:Y(4.0) After service=Y:N(8.0/2.0) After service=N:B(15.0) After service=Y:A(4.0) Price=Y:A(19.0) Sex=M Brand =Y Sex:M:Y(6.0) Clustering NO.=B Price=N:B(5.0) Sex:W:N(15.0) Sex=M Price=Y:A(6.0)
毛乾任,等:基于c4.5决策树的大学生笔记本电脑购买行为的数据挖掘 CPU=N:N(6.0) CPU=Y 79 B类15个样本,百分比为25.86%,由此可找到决 定行为的特征属性。 在10个正确样本百分比为85%及以上的决策 Display Card=N:Y(6.0/1.0) Display Card=Y 树中,A类的特征规则决定因素主要有品牌、操作系 统、外壳设计以及摄像头像素。B类的特征规则决 定因素主要有CPU、显卡、硬盘容量和电池续航时 问和价格。下面用分层交叉进行具体验证。 Screen size:Y:Y(9.0/3.0) Screen size=N:N(22.0/7.0) 叶子数:12 树的大小:23 正确分类样本及百分比89% 错误分类样本及百分比11% 2大学生消费者的行为特征分析 交叉分析用于分析2个变量之间的关系E 7]。 在导出聚类结果后,把聚类的A类和B类作为自 变量。而把要研究分析的其他属性作为因变量。 这里的因变量分别是影响购买行为的主观因素、 可以看出采用规则1划分的正确分类百分比 为100%。如果sex的属性值为w即性别为女,且 Price值为No,如果Brand值为Yes,输出A类,占 A类13个样本的百分比为30.95%;否则Brand 值为N0,如果After service值为N0,输出B类,占 客观因素。输出结果如下: 表3客观因素交叉分析 Cluster 电脑城 二手市场 大型商场 网上购买 小计
80 2.1 两类消费行为趋于理性 重庆理工大学学报 接口数量高出A类消费者约12个百分点,而对操 总体来看,A、B类消费者对CPU的要求是所 有因素中最高的,分别占到了各自客观考虑因素 的74.29%,84.48%;其次,两类消费者购买因素 所占比例超过50%的还有使用需求,散热和内存 容量。大学生在购买因素中,可以根据自己的使 作系统、笔记本厚度、便携和外壳材质的要求 较低。 从主观因素来看,B类消费者只在价格要求 方面高于A类消费者14.86个百分点,而对于外 观设计、材质、品牌要求和是否促销,并不是主要 的考虑因素。 用需求,依次参考CPU型号、散热和内存容量。这 几个因素也是生产商应该考虑的重心。 2.2 A类消费者购买行为 从客观因素可以看出:A类消费者在操作系 统、外壳材质以及摄像头像素、散热几个因素方面 的要求普遍高于B类消费者。在购买途径中,A 类消费者绝大部分(85.71%)去电脑城购买,少部 分选择大型商场购买,基本不在二手市场和网上 购买。并且这类消费者比较看重笔记本电脑的独 特功能以及售后服务,分别高出B类消费者27.33 个百分点和18.73个百分点。 从主观因素分析,A类消费者在品牌和促销 活动方面的考虑因素分别高出B类消费者25.60 个百分点和26.70个百分点,并在笔记本独特的 新功能要求上超出B类27.29个百分点。这类消 费者大部分选择在线下电脑城购买,在线上的购 买几率很低。可见,此类大学生消费者追逐个性 化的独特风格,并且对价格的看重远不及B类高, 消费大头已经从实用化趋向时尚化。 商家对于这类消费者在抓品牌效应的同时, 可以经营便携性较强,外观设计时尚的笔记本,并 且可以适当延长售后服务期,在实体店里开展一 些促销活动,从而在很大程度上吸引A类消费者。 而对于生产商,产品要保证很好的便携性、外壳材 质和外观设计。一些新功能的推出会更加吸引这 部分消费者。家庭娱乐本、轻薄便携本、时尚丽人 本、超极本将受到这类消费者的青睐,同时在产品 配置上,生产商可以适当调低成本。 2.3 B类消费者购买行为 从客观因素分析,B类消费者对CPU、显卡类 型、硬盘容量和电池续航时间的要求远高于A类 消费者。B类消费者对CPU的要求高出A类消费 者约10个百分点,对显卡类型要求高出A类消费 者约24个百分点,电池续航时间和硬盘容量以及 在购买途径中,B类消费者在网上购买的需 求远远大于A类。这类消费者在购机过程中可以 选择市面上一些配置较好的游戏影音本、商务办 公本、2合1电脑等;品牌上可以考虑如宏基、华 硕、联想及ThinkPad等配置较好、价格不高的品 牌。B类大学生消费者在购买笔记本时青睐商家 降价促销和赠送购机礼包。商家在营销上可以抓 住这一点,在经营模式上可以选择线上实行购买 优惠礼品套机的策略,在线下开展降价促销活动, 或者采用赠送购机礼包的方式来吸引B类消费 者。对于生产商,则要根据这类消费者看重配置 如CPU、显卡、电池、硬盘容量的特点,均衡配置、 外观设计和价格三方面的成本。 3分层交叉进行误差验证 用分层交叉技术评估期望泛化能力,即预测 模型对新鲜样本的适应能力 。模型泛化能 力验证结果如下: 分层交叉验证误差=== 正确分类样本及百分比96 96% 错误分类样本及百分比 4 4% Kappa统计 0.9l7 4 平均绝对误差 0.035 6 均方根误差 0.174 相对绝对误差 7.304 8% 相对平方根误差 35.236 6% 样本总数 100 混淆矩阵: a b <一分类为 39 3 l a=A 1 57 l b=B 从决策树的混淆矩阵中可以看出:在大学生
I二 毛乾任,等:基于c4.5决策树的大学生笔记本电脑购买行为的数据挖掘 类别A的实例中,39个被正确预测为A类,3个被 错误预测。在类别为B的实例中,57个被正确预 测为B类,正确分类百分比为96%,错误分类百分 比为4%,验证说明模型具有较高的新样本数据适 应能力。 清华大学出版社,2009.322—324. 81 [7] 樊宁.K均值聚类算法在银行客户细分中的研究[J]. 计算机仿真,2011(3):369—372. [8] 瞿小宁.K均值聚类算法在商业银行客户分类中的应 用[J].计算机仿真,2011,06:357—360. [9] 关云鸿.改进K一均值聚类算法在电信客户分类中的 参考文献: 应用[J].计算机仿真,2011,08:138—140. [10]Menardi G,Torelli N.Training and assessing classiifca— tion rules with imbalnaced data[J].Data Mining and 荣晓华,何成义.大学生自我概念与购买决策关系的 Knowledge Discovery,2014,28(1):92—122. 实证研究——以笔记本电脑市场为例[J].吉林工商 [11]Sathyadevan S,Remya R Nair.Comparative Analysis of 学院学报,2012(1):48—51. Decision Tree Algorithms:ID3.C4.5 and Random Forest Honkanen P,Olsen S,Myrland O.Preference—based Seg- [J].Computational Intelligence in Data Mining—Volume mentation:A study of meal preferences among Norweigian 1 Smart Innovation,Systems and Technologies Volume, teenager[J].Journal of consumer Behavior,2004,3(3): 2015,31:549—562. 235—250. [12]1wata T,Sawada H.Topic model for analyzing purchase Mobasher B.Web Usage Mining In John Wang,Encyclo— data with price information[J].Data Mining and Knowl— pedia of Data Warehousing and Mining[M].Idea Group, edge Discovery,2013,26(3):559—573. 2006. [13]汤克明.不确定数据流中频繁数据挖掘研究[D].南 Jefrey Lijfifjt,Panagiotis Papapetrou.A statistical signiif· 京:南京航空航天大学,2012. cance testing approach to mining the most informative set [14]王萍.基于数据挖掘技术的消费者行为研究[D].长 of patterns[J].Data Mining and Knowledge Discovery, 春:吉林大学,2004. 2014,28(1):238—263. [15]李军.基于用户行为挖掘的数据流管理技术研究 林嘉.系统设计和基于用户行为分析[D].广州:中州 [D].北京:北京邮电大学,2012. 大学,2013. 俞勇,薛贵荣,韩定一,等.Web数据挖掘[M].北京: (责任编辑杨黎丽) (上接第51页) ings[C]//Abstract of China 6th International Symposium [4] 刘志全,张鹏顺,沈允文.高速滚子轴承的热分析模型 on Tribology.Beijing:[S.n.],2011. [J].机械科学与技术,1997,16(4):607—611. [1O] 崔立,王黎钦.航空发动机高速滚子轴承动态特性分 [5] 崔力,郑建荣.考虑刚性转子非线性振动的圆柱滚子 析[J].航空学报,2008,29(2):492—498. 轴承动态特性研究[J].振动与冲击,2010,29(10): [11] 王军领,郑翔,吴焕.圆柱滚子轴承动静态有限元分析 113一l17. [J].扬州大学学报:自然科学版,2012,15(2):43 [6] 陈观慈,王黎钦.高速球轴承的生热分析[J].航空动 46. 力学报,2007,22(1):163—168. [12] 易学平.圆柱滚子轴承力学特性分析及其数值模拟. [7] 刘志全.高速滚子轴承热分析及油膜测试[D].哈尔 [D].哈尔滨:哈尔滨工程大学,2009. 滨:哈尔滨工业大学,1996. [13] Brown J R.Forster N H.Operating temperature in lubri— [8] 张占立,王燕霜.高速圆柱滚子轴承动态特性分析 cated rolling element bearings ofr gas turbines[R].AIAA [J].航空动力学报,2011,26(2):397—403. 20oo一3027.2o00:1268—1275. [9]Kotzalas M N,Doll G L,Evnas R D.The Impo ̄ance Of Coating Durability On The Performance Of Roller Bear· (责任编辑刘舸)