1、基于数据挖掘方法下的大众点评网美食类商家评分研究上海立信会计学院 曾晨、张瑾、张瑞目录一、引言.2二、研究方法综述.3(一)数据来源3(二)变量选择.3(三)理论简介.3三、数据分析.8(一)各省份受欢迎的美食即当地饮食习惯的关联分析8(二)探究商家是否连锁与其星级的关系13(三)聚类分析.15(四) 利用决策树建立消费者选择模型18四、结论和建议.22参考文献.23附录.24图目录图 1 决策树树形结构.7图 2 各个省、直辖市餐饮类商家数目9图 3 不同美食种类的商家数目.9图 4 第1到22项关联规则.10图 5 第23到44项关联规则.11图 6 辽宁省与其饮食习惯的关联规则11图 7
2、 上海市与其饮食习惯的关联规则12图 8 广东省与其饮食习惯的关联规则12图 9 四川省与其饮食习惯的关联规则13图 10 连锁店与非连锁店比例13图 11 非连锁店商家的星级频数分布图14图 12 连锁店商家的星级频数分布图15图 13 餐饮类商家星级系谱图16图 14 餐饮类商家聚类数目.16图 15 第一类餐饮商家星级.17图 16 第二类餐饮商家星级.17图 17 第三类餐饮商家星级.17图 18 第四类餐饮商家星级.18图 19 好评与非好评的商家数量条形图19图 20 决策树模型的基本信息20图 21 各节点的重要性.21图 22 决策树.21图 23 决策树模型预测效果.22表目
3、录表 1 连锁与非连锁商家的总体情况13摘要随着互联网的飞速发展与智能手机的普及,人们的生活方式发生了巨大的变化。手机APP作为互联网发展的重要产物,为人们的日常生活,例如交通、购物、饮食、住宿、教育等提供了极大的便利。大众点评作为人们日常使用率最高、商家覆盖面最广的手机软体之一,极大地影响了人们的日常生活,不仅方便了人们的休闲娱乐,还满足了人们对衣食住行的多样性需求。“民以食为天”,消费者在选择餐厅时往往会通过点评网站去浏览相关餐厅的用户评价、商家评分以及是否具有优惠,并以此作为参考来做出选择。因此,研究影响消费者选择商家的因素,不仅对消费者本身做出决策有意义,对创业者选择投资方向和商家改善
4、自身管理同样提供了参考依据和有效信息。本文根据数据堂()提供的大众点评2014年4月更新后的1000家美食类商家数据,筛选出15个变量进行关联分析、聚类分析、决策树等数据挖掘方法探索地域与饮食偏好的关联度,为对消费者和创业者都提供了良好的经营决策方向;通过对所有商家进行系统聚类来探索每类商家与商家星级的关系,让消费者在选择餐厅时注意星级标准,以满足自身的用餐需求;最后利用决策树建立消费者选择模型,让消费者浏览餐厅信息时理性做出就餐选择,同时根据消费者市场的需求,餐厅经营者可以做出相应的营销策略的调整,改善餐厅服务质量,迎合消费者心理,在纷繁复杂的餐饮业增强竞争力,赢得自己的市场份额。在模型的建
5、立和数据分析过程中,本文采用R.3.2.1和Microsoft Excel2010 软件。关键字:大众点评关联分析聚类分析决策树饮食习惯消费者选择模型一、引言互联网改善了人们的沟通方式,学习方式,也改变了商务的方式。随着互联网的普及,网络技术和电商平台也日趋完善。如今,消费者不止满足于电商带来的便捷,更对电商平台的口碑评价越来越关注,也使得电商平台口碑评价成为打造电商品牌的重要途径。大数据时代下,客户洞察、营销规划、物流管理、流程规划、风险控制等,都将受益于大数据相关技术。相比于线下零售,电子商务网站具备非常丰富的客户历史数据。通过这些数据的分析,能够进一步了解客户的购物习惯、兴趣爱好和购买意
6、愿,并可以对客户群体进行细分,从而正对不同的用户对服务经行调整和优化,进行有针对性的广告营销和推送,实现个性化服务。智能手机和手机APP同样也是电商中不可缺少的重要组成部分,随着智能手机的普及与APP的蓬勃发展,人们将生活重心转移到手机软体中,手机APP有很多,涵盖了一切人们所需,包括购物、旅行、健身等等,此次我们选择大众点评这一手机软体的数据来进行分析有两个原因。首先,大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(OnlineToOffline)交易服务。其次,大
7、众点评属于较早的软件,使用人群广,受众人群普遍,没有特别明显的年龄差距,并且大众点评涵盖了日常的衣食住行等,数据齐全,可以反映较为精准的有效信息。由于大众点评涵盖门类过多,本文我们具体选择“食”这一大类进行数据挖掘。根据1000家餐饮类商家的数据,我们挑选出消费者浏览餐饮类商家信息时最关注的指标,然后对这些指标进行分析,分别研究了美食种类与地域分布的关系即当地饮食习惯的研究、餐饮类商家连锁与否是否与其评分星级有对应关系以及建立消费者选择模型为创业者确立投资目标、消费者理性选择餐厅和餐厅经营者营销策略的调整提供理论依据。二、研究方法综述(一)数据来源本文采用的数据来自数据堂(http:/ Dis
8、covery inDatabase,KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下步骤组成:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘6)模式评估(7)知识表示。数据挖掘的4个发展阶段:第一阶段:电子邮件阶段。这个阶段可以认为是从70年代开始。第二阶段:信息发布阶段。从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。第三阶段: EC(ElectronicCommerce),即电子商务阶段。第四阶段:全程电子商务阶段。随着SaaS(Softwareasaservice)软件服
9、务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。数据挖掘的本质就是数学建模,其涵义与统计分析建模方法一致。因而数据挖掘也称为现代统计。传统的统计分析建模方法的基础是经典数理统计方法。已有结论多基于“大样本,少变量,多输入,单输出”的条件。对当前海量数据中出现的“大样本,多变量”,“少样本,多变量”,“多输入,多输出”以及“离散型输出”等类型能较好地解决。数据挖掘常用的技术有关联分析、聚类分析、决策树、人工神经网络、遗传算法、随机森林等,各种方法都有自身的功能特点以及应用领域。本文我们使用关联分析来探究美食分类与各省份之间的关联或相互关系,聚类分析
10、则是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式,本文利用 product_rating(菜品质量评分)、environment_rating(环境评分)、service_rating(服务评分)三个变量对商家进行聚类,探索每类商家与商家星级的关系,最后我们对商家好评率建立决策树,为消费者进行选择时提供参考依据。1.关联分析1.1背景介绍关联规则最初提出的动机是针对购物篮分析(MarketBasketAnalysis)问题提出的。假设分店经理想更多地了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数
11、量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。1.2定义关联分析是一种简单、实用的分析技术,也是数据挖掘的核心技术之一,用来查找存在于项目集合或对象集
12、合之间的频繁模式、关联、相关性或因果结构,简单来说就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。以下引入几个基本概念来对关联分析进行简要阐述。1.2.1项集:既是集合的概念。例如一篮子物品中一件为一项(Item),若干项的集合为项集。1.2.2关联规则:一般记为XY的形式,左侧的项集x为先决条件,右侧项集y为相应的关联结果,用于表现出数据内隐含的关联性。例如:关联规则项尿布啤酒成立则表示购买了尿布的消费者也会购买啤酒这一商品,即这两个购买行为之间具有一定关联性。至于关联性的强度如何,我们引入三个核心概念支持度、置信度、提升度来控制和评价。1.2.3
13、关联强度:a.支持度(Support)是指在所有项集中某项集X,Y出现的可能性,即项集中同时含有X和Y的概率。 ),()( YXPYXSupport 公式(1)该指标作为建立强关联规则的第一门槛,衡量了所有考察关联规则在“量”上的多少。其意义在于通过最小阈值(minsup,MinimunSupport)的设定,来剔除那些“出镜率”较低的无意义规则,而相应的保留下出现比较频繁的项集所隐含的规则。上述过程用公式表示,即是筛选出满足:minsup)( ZSupport 公式(2)的项集Z,被称为频繁项集(FrequentItemset).b.置信度(Confidence)在关联规则的先决条件X发生的
14、条件下,关联结果Y发生的概率,即含有X的项集中,同时含有Y的可能性.Confidence(XY)P(Y|X)P(X,Y)/P(X) 公式(3)这是生成强关联规则的第二个门槛,衡量了所有考察关联规则在“质”上的可靠性。相似的,我们需要对置信度设定最小阈值(mincon,MinimumConfidence)来实现进一步筛选,从而最终生成满足需要的强关联规则。因此,继筛选出频繁项集后,需从中进而选取满足:Confidence(XY)mincon 公式(4)的规则,至此完成所需关联规则的生成。c.提升度(lift)提升度表示在含有X的条件下同时含有Y的可能性与没有这个条件下项集中含有Y的可能性之比,即
15、在Y自身出现可能性P(Y)的基础上,X的出现对于Y的“出镜率”的提升程度.Lift(XY)P(Y|X)/P(Y)Confidence(XY)/P(Y) 公式(5)该指标与置信度同样用于衡量规则的可靠性,可以看作是置信度的一种互补指标。2.聚类分析聚类分析是指将物理或者抽象对象的集合组合为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。主要应用于商业(发现不同的客户群体,可以通过购买模式刻画不同的客户群特征)、生物(动植物和对基因进行分类,获取对种群固有结构的认识)、地理(能够帮助属于地球的数据库发现相似性)、保险行业等等,现已成为数据挖掘研究中的一个热点。聚
16、类算法种类繁多,其中普及性最广、最实用、最具代表性的五种聚类算法是:K-均值聚类(K-means)K中心点聚类(K-Medoids)密度聚类(Densit-based Spatial Clustering of Application withNoise,DBSCAN)系谱聚类(HierarchicalClustering,HC)期望最大化聚类(ExpectationMaximization,EM)本文主要以系谱聚类(HierarchicalClustering,HC)进行分析。系谱聚类:因其过程可以通过类似于系谱图的形式呈现出来,所以名为系谱聚类。特点:不需要事先设定类别书k,这是因为它的每
17、一次迭代过程仅将距离最近的两个样本聚为一类,其运作过程自然而然的得到k1至kn个类别的聚类结果。3.决策树决策树是经典的数据挖掘方法之一,建立决策树的目的既是根据若干输入变量的值构造出一个相适应的模型来预测出输出目标的值,然后以树形结构将分类过程展现出来。其优点是简单直观、解读性强。决策树呈现倒置的树形,即最上端为树的根,最下端为树的叶,有根节点(Root)、节点(Node)、叶节点(Leaf)等,形如:图1 决策树树形结构决策树构建步骤:a.决策树的生成:将包含大量信息的数据集按照一定的划分层次分类至不可再分或不需要再分的情形,充分生成树。b.生成树的剪枝:由于上一个过程是没有停止的,所以生
18、成的树可能会非常的大,对训练集很可能存在过度拟合,即对训练数据有非常高的分类准确率,但是对于新数据的分类准确率较差。因此,为了保证生成树的推广能力,需要通过剪枝过程对复杂树的节点进行删减,控制树的复杂度,并由树的叶节点树来衡量复杂度。决策树的优点:a.决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。b.对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。c.易于通过静态测试来对模型进行评测,可以测定
19、模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。决策树的缺点a.对连续性的字段比较难预测。b.对有时间顺序的数据,需要很多预处理的工作。c.当类别太多时,错误可能就会增加的比较快。d.一般的算法分类的时候,只是根据一个字段来分类。三、数据分析(一)美食种类与地域分布的关联分析根据大众点评网上店铺提供的美食种类来研究各省份受欢迎的美食,从而的可以得出该省份的饮食习惯。假设一个想要创业的人想更多的了解当地的饮食习惯。特别是,想知道哪些品种的美食当地人经常吃?这个创业者可以事先对当地的餐饮店经营的食物类型进行分析。该过程通过探究不同食物类型与地域之间的关联,分析
20、当地消费者的饮食习惯。这种关联的发现可以帮助创业者了解哪些食物更被当地人接受,并且能吸引更多的消费者,从而帮助他们成功创业。1.数据描述对各省和直辖市的美食种类进行关联性分析,用到省和直辖市的数据以及省份对应的美食种类,建立一个新的数据集 cydq _ ,新数据集里只包括两个变量,即省市(province)和美食种类(small_cate),。下面两幅图是对各省、直辖市和美食种类的简单描述:图2 各个省、直辖市餐饮类商家数目上图横轴是大众点评网中选取的某些省、直辖市,纵轴是相对应省、直辖市的餐饮类商家数目。从上图可看出上海餐饮类商家数目最多,其次是江苏、北京、广东;甘肃、广西、海南等省、直辖市
21、的餐饮类商家数目较少。图3 不同美食种类的商家数目上图的横轴是商家的餐饮分类,主要包括北京菜、海鲜、小吃快餐等,纵轴是餐饮类商家数。从图中可以看出经营小吃快餐、面包甜点、火锅、其他、西餐、川菜的商家较多,说明这些种类的美食是中国餐饮市场上主流的美食品种,也可看出中国人的饮食偏好。与此同时,我们还可以猜想一下小吃快餐类最受欢迎的原因,可能是因为小吃快餐方便快捷,与快节奏的城市生活相适应,尤其是洋快餐。2.模型建立及结果分析选择数据集 cydq _ 建立各省、直辖市和餐饮类别的关联分析,该关联分析模型命名: 1_ rulescydq ,选择支持度的最小阈值为0.01,置信度最小阈值5.0confi
22、dence。所得结果如下:图4 第1到22项关联规则图5 第23到44项关联规则关联分析结果显示一共生成44条关联规则,综上两图我们可以看出,餐饮类别以及口味偏好有明显的地域特征。我们知道提升度是筛选关联规则最可靠的指标,且得到的结论最有说服力。提升度最高的关联规则为:province=江西small_cate江西菜。河南的豫菜也足以体现口味偏好与地域有着密不可分的联系。其中提升度较高的关联规则有province=甘肃small_cate=清真菜,从地域上看,甘肃毗邻宁夏回族自治区,省内的回民较多,这条关联规则是符合常理的。为深入研究当地的饮食习惯,从而为打算从事餐饮业的创业者提供较为可靠的本
23、地市场调查反馈,我们选取了辽宁、上海、广东、四川四个囊括了我国南北饮食特点的代表性城市,做了如下4个关联分析,分别建立关联规则:2_ rulescydq, 3_ rulescydq , 4_ rulescydq , 5_ rulescydq 。图6 辽宁省与其饮食习惯的关联规则如上图,提升度较高的对应的关联规则有small_cate=朝韩料理province=辽宁,small_cate=大连海鲜province=辽宁,small_cate=东北菜/家常菜province=辽宁,辽宁离朝鲜韩国较近,彼此间的饮食有相近之处;大连是辽宁省省会,大连海鲜应该是辽宁省内不可缺少的饮食;辽宁位于东三省,东
24、北菜/家常菜应当也是辽宁的主打菜系。图7 上海市与其饮食习惯的关联规则上海汇聚了来自各地的人,同样也汇聚了来自五湖四海的饮食文化,包含了本帮江浙菜,川菜、西北菜、日本料理、韩国料理等,其关联规则的置信度较高,体现了上海国际性大都市的特点,包容性很强。图8 广东省与其饮食习惯的关联规则提到广东,一定会想到那里遍布的茶餐厅。上图中的关联规则充分验证了人们对广东的普遍印象。关联规则small_cate=茶餐厅province=广东,small_cate=小吃province=广东,small_cate=粤菜province=广东对应的提升度较高,所以广东人的口味确实是偏向粤菜菜系。图9 四川省与其饮
25、食习惯的关联规则上图是四川省与食物的关联规则,可以明确看出small_cate=串串香province=四川的提升度、支持度和置信度都较高,这也正符合四川人的饮食习惯。每个省、直辖市都有自己的特色菜品,地方菜系不止体现了地域风情,也向外省人展现本地的饮食文化。例如:云南省以云南菜为主,山东省以鲁菜为主,广东就以茶餐厅为主,这些很好的体现了地域文化和差异。从如上关联分析中,我们可以明确看出地域和餐饮有着密切的关系。所以当在一个新的地域找到符合心意的饮食,一定要选择当地最著名的本帮菜。(二)探究餐饮类商家是否连锁与其星级的关系普遍认为,连锁型餐厅以其过硬的品牌知名度、标准的食材质量与服务水平优于非
26、连锁餐厅。为了验证这一猜想,我们对数据中连锁与非连锁餐饮商家进行分析,探究是否连锁影响其星级评价。非连锁 :61%连锁 :39%连锁店与非连锁店比例图10 连锁店与非连锁店比例表1 连锁与非连锁商家的总体情况商家数 占总体比例 星级均值 星级方差非连锁 607 61% 2.554 2.386Histogram of sappy1, 1sappy1, 1Frequency0 1 2 3 4 5050100150 1440 050017197 107352图11 非连锁店商家的星级频数分布图连锁 393 39% 3.281 1.295合计 1000 100%Histogram of sappy2,
27、 1sappy2, 1Frequency0 1 2 3 4 5020406080100300 022010289101427图12 连锁店商家的星级频数分布图由图9、10、11和表1可以得出以下结论:商家还是以非连锁店居多;星级代表该商家的综合评分,非连锁店商家的星级大多集中在3颗星,其次依次是0颗星和4颗星,由表1中星级的均值和方差可以看出(由于星级的最大值最小值均为5和0,此均值能代表总体平均水平),非连锁店商家的综合评分总体偏低且参差不齐,商家之间的差异较大;连锁店商家的星级集中在3星到4星之间,商家间的差异较小,综合指数较高较可靠,因此我们可以推断出连锁店商家更容易得到消费者的好评和认
28、可。以上结论与我们的生活常识大致相符,从总体上看连锁店上优于非连锁店。(三)聚类分析相对于其他聚类方法,系谱聚类不需要事先设定类别数k,这是因为它每次迭代过程仅将距离最近的两个样本具为一类,自然得到k=1至k=n(n为待分类样本数)个类别的聚类结果,因此我们选择系谱聚类进行分析。1.数据预处理由于product_rating、environment_rating、service_rating这三个变量中存在缺失值,我们假设它们相应的评分为0,因为存在缺失值说明该商家可能无人评论,故没有相应评分。2.模型建立及结果分析首先用欧式距离生成 product_rating、environment_ra
29、ting、service_rating的距离矩阵,然后进行系谱聚类生成系谱图,继续用剪枝函数将聚类结果分为四类。如下图红线横向穿过的四支,即为聚类的最终结果。系谱图如下:99599097596295595494394193893693292992692391791690287787687086986886685785384983583483283183082782381979779678977076674273772672170770169869769568266665965865765664864162762261861260560457456956856756556055455355054
30、954153652550650449349148848548448348248148047347046645744943543442642542242140038638238137637437237137036634734634334033933830330229628427426625524524223522922822521821120119919719519418918818118017717617416116015014814714213213112311910210197959493928778747267656157544431282726226971552105930940398
31、965359690815111270517967604472515276942474488142078123053857397053425744620658568680634519854911551918269513300896526147415213528320312045477795315325843627246058090725276526794950949920124729154202271262767453591819943617448508519152603585615077873089661276444021777983547712878724441399428375780212
32、469889908984307927864753148247254314325293763462184809219816254328259265322457780794676366451430537729065059385257198188153329568731773398211317994710070233293398742464432842343265377711906427277458055058551717728461828384382542222278749789064587581864104077669223220897304598890900720237442411450555
33、792843615198545709839578802647695087604087847181142136331922349319684182951487898997957895162526547472466936602195316238473332935423535763656738937222782416133854977193306026112775727957994204565326394658886187211327380597895679804142802449611216787785153636322361732652878136514184291154716717467693
34、367351585829851061443891126064447744956666145518537081513214527653624657380165122562595401466262317044648372899299616291495032894635566016213799488838208623647577741550079863640655982594518516911816681098813191867214586886998683134963126967901000451740139311302791640336353529638442533676709735946887
35、132058081439223240434193743071064690413610285355437581775263691548264848996292755871417374984099982283364534275447299333734454476155674921723579439335403373489507887629443457570164103252009721220793427330173022381851826856116998601683543936898039796097439121759351578009521836257562817676249705557821
36、566675644316797153939690374163882171530681661473619660731662073231938475087921558739758341480188792418589110268637108502753320478864275888322329424926629803694986834324890449581749956476833475140773417072839958248801076315218366195305581303871620989245998912836859014546892812564966122842402983165684
37、324522595412526521633953876083517845512935053510413346186368069960367763438879191481185810342721691965529439091239509599309873351942476843183487644772508416252463010989493915394859956286140137706126519349663479445959739210360969977570793773520700310288323829738339267299229814162935613854675981268173
38、88913157861721936859607614674867940971171758752739135778552398667541996423878399122686537841661788591364336187714592048828845112406005842339765285106651365015621594790590996748596669845881174875622155766862473191082826733140523270328149492549087585291243401134208829563974433901051015Cluster Dendrogr
39、amhclust (*, “complete“)dist(dz, 10:12)Height 图13 餐饮类商家星级系谱图如上图所示,图的最下端每个餐饮类商家各占一个分支分为一类,越往上看,每一条分支的餐饮类商家数越多,直至最上端所有的店家聚为一类。下图是以列表形式显示聚类结果的个数:图14 餐饮类商家聚类数目如图13可知,第一类有406个餐饮类商家,第二类有341个餐饮类商家,第三类有79个餐饮类商家,第四类有174个餐饮类商家。查看聚类结果中餐饮类商家的星级:图15 第一类餐饮商家星级上图显示:第一类含有406个餐饮类商家,它们的总评分stars(星级)为2.03.0。图16 第二类餐饮商家
40、星级上图显示:第二类含有341个餐饮类商家,他们的总评分stars(星级)为3.54.0。 图17 第三类餐饮商家星级上图显示:第三类含有79个餐饮类商家,他们的总评分stars(星级)为4.55.0。 图18 第四类餐饮商家星级上图显示:第四类含174个餐饮类商家,他们的总评分stars(星级)为0。通过product_rating、environment_rating、service_rating三个变量对餐饮类商家进行的聚类分析结果与已知餐饮类商家的星级基本相符。第一类为中下等餐饮类商家、第二类为中上等餐饮类商家、第三类为优质餐饮类商家、第四类为低等餐饮类商家。如上图聚类结果可以看出,餐
41、饮类商家的stars(星级)基本大于3.0,大部分餐饮类商家属于中上等餐饮类商家,它们的菜品质量、环境、服务较好,顾客选择那些餐饮类商家时可以关注它们的星级标准,以保证用餐质量。(四)利用决策树建立消费者选择模型决策树是最经典的数据挖掘方法之一,它以树形结构将决策或分类过程展现出来,简单直观、解读性强。下面我们根据数据中存在的因子变量的值,即餐厅的环境等级、菜品质量和服务等级来预测并分类,构造出一个相适应的模型,以树形结构呈现,为新用户在选择是否光顾某家餐厅时提供决策依据。1.数据预处理我们将所有评价(all_remarks)、非常好评(very_good_remarks)、好评(good_r
42、emarks)、一般评价(common_remarks)、这四个变量的数值进行数据处理,数据处理公式如下: 公式(6)如果该店铺的好评率大于0.85,说明该餐厅受顾客欢迎,值得新顾客选择,生成的新变量好评 (good_rate)取值为1;反之,该餐厅的好评率低于0.85,老顾客的推荐率不高,我们认为这些餐厅不值得选择,生成新变量的取值为0。新变量好评 (good_rate)作为该餐厅是否值得新顾客选择的一个重要指标,然后再对好评(good_rate)变量建立决策树。整理后的数据:product_rating、environment_rating、service_rating、good_rate
43、图19 好评与非好评的商家数量条形图从上图可以看出,好评率高于85%的商家数目大约是好评率低于85%商家数目的三倍,证明大部分的店铺比较受顾客欢迎。将原数据进行分层抽样,在好评率高于85%的数据和好评率低于85%的数据中各随机抽取四分之一来合成测试集test_dazhong,剩余四分之三的数据组成训练集train_dazhong,测试集的数据量为250,训练集的数据量为750。训练集的数据用于建立模型,之后我们用构建的分类树对测试集中的好评 (good_rate)变量进行预测并对预测结果进行评价。2.模型建立及结果分析顾客在选择餐厅时更注重的是该餐厅的食物是否美味健康,服务态度是否良好和就餐环
44、境是否干净优雅。因此我们将通过分析数据中的预测因子变量,拟合新变量来建立决策树,为广大新用户选择某家就餐店铺时提供决策依据。建立的模型如下: ratingservice ratingtenvironmenratingproductrategooddazhongformula _ _ 其中 rategood _ 表示餐厅的好评, ratingproduct _ 表示顾客对餐厅菜品质量的评分情况, ratingtenvironmen _ 表示顾客对餐厅就餐环境的评分情况,ratingservice _ 表示顾客对餐厅服务的评分情况,将该模型命名为:dazhongformula _ 。下图是导出的决
45、策树rp_dazhong的基本信息:图20 决策树模型的基本信息决策树基本信息:在如上输出结果中,我们可以看到各个节点信息按照“node),split,n,loss,yval,(yprob)”的格式给出,且按照节点层次以不同缩进量列出,如节点1缩进量最小,其次为节点2和节点3,并在每条节点信息后以星号“*”标出的为叶节点。图19可以看出,节点1有616个样本,总的样本量为750;节点2和节点3以service_rating为节点,且分割值为8.05,分别包含475和159个样本;节点4和节点5以product_rating为节点,且分割值为5.75,分别包含37和420个样本;节点20和节点2
46、1以environment_rating为节点,且分割值为7.15,分别包含21和97个样本;依次以次类推。决策树rp_dazhong的cp表格如下图所示:图21 各节点的重要性图22 决策树从上图可以看到第一层的划分是根据service_rating,第二层的划分根据product_rating,第三层的划分根据environm_rating。如最左支表示:对于服务评分低于8.1分,并且食品评分低于5.8分的餐厅,不建议新用户选择。最右支表示:当服务评分高于8.1分的餐厅,建议新用户选择。当服务评分低于8.1分,但食品评分高于5.8分,环境评分低于7.4分的餐厅,新用户也可以考虑选择。当服务
47、评分低于8.1分,环境评分高于7.4分,食品评分高于7.2分的餐厅,说明该餐厅环境幽美,服务细心,菜品美味,强烈建议消费者前往。以上是基于消费者的角度选择餐厅,反观我们也可以从餐厅角度提出一些建议:由于顾客对食品的要求较高,店家应当采纳老顾客的意见,对自家的菜品进行改良和完善;在提高食品口感和外观的基础上,进一步改善店铺的就餐环境,如果资金允许,也可以进行小面积的装修,带给顾客不一样的就餐心境;提高服务质量也很重要,一个合格的侍应生,应当学会跟各种各样的顾客打交道,他们在应对不同的顾客时都会以最好的方式推销自家的菜品,这样不止能提高销量,也能发展长期顾客。因此,通过该决策树模型,餐厅可以针对自身在大众点评网上食物、环境、服务各项评分来做相应的改善,以提高自身的收益。3.模型评估我们先用训练集的数据建立了决策树,得出如图20的结果。之后我们用构建的决策树对测试集中的好评 (good_rate)变量进行预测并对预测结果进行评价。结果如下图所示: 图23 决策树模型预测效果我们看到预测