收藏 分享(赏)

决策树算法实例.doc

上传人:精品资料 文档编号:8196756 上传时间:2019-06-13 格式:DOC 页数:6 大小:89.63KB
下载 相关 举报
决策树算法实例.doc_第1页
第1页 / 共6页
决策树算法实例.doc_第2页
第2页 / 共6页
决策树算法实例.doc_第3页
第3页 / 共6页
决策树算法实例.doc_第4页
第4页 / 共6页
决策树算法实例.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、机器学习课程报告基于 ID3 算法的决策树对网络购物满意度的预测摘要: 近年来,随着信息技术的不断发展壮大,尤其是大数据挖掘的理论和方法发展迅速,已经在许多实际生产生活中得到应用。大数据挖掘的理论和方法对数据本身没有进行任何的假设,只是通过对数据本身的学习从而建立相应的模型。本文将基于决策树的 ID3 算法,对某购物网站网购服务评价的数据进行建模,将对买家网购满意度进行预测,以便于卖家更好地完善网购流程。 关键词:大数据挖掘;决策树;ID3 算法。0 引言:伴随着信息科技技术的迅速发展,网络购物越来越受到人们的关注。这种足不出户的购物方式深受人们的喜爱,逐渐成为一种潮流。在人们享受着方便、价格

2、便宜、不受时间和地点限制带来的便捷的同时,网络购物的劣势也显现出来。买家通常要面临售后服务、卖家信用、网上支付风险等诸多问题。此时,买家满意度便成了衡量卖家服务质量的标准。建立买家网络购物满意度预测模型,有利于规范网络购物过程中不健全的地方,使网络购物的环境得到净化。决策树算法利用的是一种归纳式的学习算法,目的在于从数据源中推理和归纳出树形结构的决策树知识表现形式。而 ID3 算法作为决策树学习算法的主要内容,在处理实际问题上有着举足轻重的作用。ID3 算法将信息熵这一概念与决策树算法相结合。ID3 算法的核心是对决策树中各节点上的属性进行选择,将信息增益看作分裂属性的评判标准,先计算所有属性

3、的信息增益,然后由信息增益大小来确定测试属性,将信息增益最大的属性作为测试属性来对决策树进行划分。ID3 算法对当前节点中的属性进行评估,即选择最大信息增益的属性作为测试属性,节点再按照测试属性的属性取值情况进行节点划分,对于划分的节点递归地使用测试属性选取方法进行划分,进行到在全部的子集中只有一种类别的数据的时候停止。本文将采用 ID3 算法对网络购物中买家满意度进行建模,从而达到预测网络购物中买家满意度的功能。1 模型建立:1.1 数据准备:为了更加方便地描述,本文采用评价网络购物中的满意度预测的实例,来详细地运用和解决机器学习中的决策树算法。具体如下:当经行了网络购物,在收到网购货物后要

4、对本次网络购物的服务进行评价,满意或不满意。目标变量设定成二分类变量:满意(设置为 0)或者不满意(设置为 1) 。相应的自变量由网购过程中产生的数据组成,比如产品质量、卖家服务态度、收货时长等。这里,给出一份某网站对网络购物满意度的调查情况,得到的数据如表 1 所示:表 1:网络购物售后评价机器学习课程报告买家编号 产品质量 卖家服务态度收货时长(天)满意度01 良好 良好 1.5 002 良好 良好 2.3 003 良好 一般 1.2 004 良好 一般 2.2 105 一般 良好 1.6 006 一般 良好 2.7 107 一般 一般 1.4 108 一般 一般 2.8 1由表 1 可以

5、看出,产品质量、卖家服务态度都为离散型变量,收货时长为连续型变量。满意度中 1 为不满意、0 为满意。1.2 数据处理及模型建立:将所得数据分别在数据分裂属性的选择以及数据的树剪枝这两方面进行处理,用基于ID3 算法的决策树对网络购物的满意度进行预测:所谓分裂属性的选择,即应该选择产品质量、卖家服务态度两个离散变量和收货时长这个连续变量中的哪一个变量作为决策树的第一个分支。ID3 算法的核心方法是以信息增益的大小来依次选择分裂树叉,即:1.2.1ID3 算法的信息增益:根据香农定理可知,最大信息增益的变量将会被定为 ID3 算法中树叉的分支,拿网络购物满意度预测模型为例,此模型有三个变量,即产

6、品质量、卖家服务态度和收货时长。分别计算产品质量、卖家服务态度和收货时长的信息增益,将三个变量当中信息增益最大的变量看作第一阶树叉。且信息增益的计算方法是:变量的信息增益=原始信息的需求-按照某个变量划分时的信息增益。假设以产品质量为自变量,产品质量的信息增益=原始信息的需求按照产品质量划分所需要的信息需求。其中原始的信息需求的计算方法为:(1)21()log()miiInfoDp其中 D 为目标变量,实例中为满意度。m=2,即满意和不满意两种情况。 则分别表示网ip购不满意的概率以及网购满意的概率。表格中一共有 8 条数据,满意 4 条,不满意 4 条。其概率都为 1/2。 (满意度)为只基

7、于满意和不满意划分所需要的信息需求,即:Info(2)224()*logl1满 意 度以产品质量划分所需要的信息需求为:(3)1()()vjAjjDInfInf(3)式中,A 表示在满意度中按自变量 A 划分所需的信息,在本文中表示按产品质量进行划分所需的信息。V 表示在满意度中,按产品质量进行划分,即产品质量分别为良好、一般进行划分。因此,将产品质量划分为 2 个子集,D1、D2,V=2。即产品质量为良好的划机器学习课程报告分中,样本有 1 个不满意和 3 个满意,用 D1 表示。产品质量为一般的划分中,样本有 3 个不满意和 1 个满意,用 D2 表示。表示如下: 2222413431()

8、*logl(*logl)0.19884Info产 品 质 量 满 意 度(4)由(4)可得,产品质量的信息增益表示为:产品质量的信息增益= =1-0.19=0.81()()InfoInfo产 品 质 量满 意 度 满 意 度同理可得,卖家服务态度的信息增益计算方式如下:(5)2244()*lgl188If满 意 度 22224133()lol(*logl)0.198 4Info卖 家 服 务 态 度 满 意 度(6)卖家服务态度的信息增益=1-0.19=0.81从上文中可以得出,产品质量和卖家服务态度只有良好和一般两种取值,所以这两个变量可以看作为离散变量。但收货时长取值不固定,故须看作为连续

9、变量。连续变量得到其信息增益的方法如下:先将连续变量按照单调递增的顺序排列,然后取相邻两个变量的值的中点当作分裂点,最后把连续变量看作离散变量,按离散变量信息增益的计算方法得到其信息增益,取其最大的信息增益作为第一阶树叉。本文中求收货时长的信息增益,首先将收货时长递增排序,即 1.2、1.4、1.5、1.6、2.2、2.3、2.7、2.8,取相邻两个值的中点,比如 1.2 和 1.3,中点即为(1.2+1.4)/2=1.3,同理可得其他中点,分别为1.3、1.45、1.55、1.9、2.25、2.5、2.75。对得到的每个中点都分为两个区间集合,如中点 1.3,则化为 和 这两个区间,按离散变

10、量信息增益的计算方法得到其信息增1.3.益。例如,中点 1.3 的信息增益为:(7)2244()*logl188Info满 意 度2221073l(l*log)0.867If收 货 时 长 满 意 度(8)中点为 1.3 的信息增益 Gain(收货时长)=1-0.86=0.14中点为 1.45 的信息增益计算过程如下:(9)2244()*logl188Info满 意 度222211633()*lgl(l*log)8 6Info收 货 时 长 满 意 度(10)中点为 1.45 的信息增益 Gain(收货时长)=1-1=0同理分别求出其他各个中点的信息增益,选取其中最大的信息增益作为分裂点,本文

11、数机器学习课程报告据中点 1.3 为最大信息增益。后与产品质量和卖家服务态度的信息增益相比较,选取最大的信息增益作为第一个树叉的分支,本文数据中因为产品质量和卖家服务态度的信息增益均为 0.19,这里选取产品质量作为第一个分叉,选取卖家服务态度作为第二个分叉。收货时长的信息增益最大为 0.14,比产品质量和卖家服务态度的信息增益都小,因此,选取收货时长作为第三个分叉。综上所述,选择按某一个变量划分所需的期望信息即为信息增益,此期望信息越小,则按照这个变量划分的纯度就越高。对于某一个实际的问题来说,Info(D)均为定值,但信息增益 。可以看出影响信息增益的决定性因素是 的取值。()()AInf

12、oDIf ()AInfoD当以变量 A 进行区分的时候,所需的期望信息的值越小则整体的信息增益就越大,越可以把不同的变量区分开来。1.2.2 决策树模型建立:根据训练样本和 ID3 算法,通过 Visual C+的程序编写,得到相应的预测模型。ID3 算法即检测数据的所有属性,将信息增益最大的属性作为第一结点,将该属性的不同取值建立分支,再将信息增益次大的属性作为分支的第二级结点。依次类推,进行到在全部的子集中只有一种类别的数据的时候停止,最后得到决策树预测模型。由 ID3 方法构建得到的决策树模型如图 1 所示:产品质量态度一般良好态度良好一般良好一般01时长 时长小于 2 天小于 2 天大

13、于 2 天大于 2 天010 1图 1:ID3 算法生成的决策树2.2.3 决策树分类规则:决策树所建立的分类可以用“If-THEN ”分类规则来表示。沿任何一根结点到叶结点路径都是一种分类规则。这样的一条路径可以用“If-THEN”规则表示出来。图 1 所示的决策树的建立需用到表 2 所示的分类规则机器学习课程报告表 2 ID3 算法生成的决策树分类规则序号 分类规则01 IF(产品质量=良好)且(卖家服务态度=良好)THEN(满意度=0)02 IF(产品质量=一般)且(卖家服务态度=一般)THEN(满意度=1)03 IF(产品质量 =良好)且(卖家服务态度 =一般)且(收货时长小于 2 天

14、)THEN(满意度=0)04 IF(产品质量 =良好)且(卖家服务态度 =一般)且(收货时长大于 2 天)THEN(满意度=1)05 IF(产品质量 =一般)且(卖家服务态度 =良好)且(收货时长小于 2 天)THEN(满意度=0)06 IF(产品质量 =一般)且(卖家服务态度 =良好)且(收货时长大于 2 天)THEN(满意度=1)2 模型评估:通过建立 ID3 算法预测模型可以得出,产品质量、卖家服务态度、收货时长是影响消费者网络购物满意度的主要因素,其中产品质量对买家网络购物满意度的影响最大,且卖家服务态度和收货时长对买家网络购物满意度的决策也有一定的影响。在得到基于 ID3 算法的决策

15、树模型以后,在淘宝网上随机选取了 100 份不同产品的买家满意度评价数据,将真实的数据结果与 ID3 算法的预测结果进行对比后发现,基于 ID3算法网络购物买家满意度预测模型的准确率达到 95%。 由于采集数据具有局限性,若能增加样本数据的大小,ID3 算法的预测结果将与真实结果更为接近,因此基于 ID3 算法的决策树预测模型具有较好的推理能力。3 总结:本文将决策树中 ID3 算法应用到网络购物中的买家满意度评价预测,决策树可以有效地用于网络购物满意度的分类预测,拓展了决策树算法在实际领域的应用得出了产品质量的好坏是影响买家对网购物满意度的决定性因素这一结论,同时,卖家服务态度和收货时长对买

16、家网络购物满意度的决策也有一定的影响。ID3 算法在应用于网络购物满意度评价时多了评价的依据,卖家可以根据这些依据,对自身网络购物中存在的问题进行及时的调整和解决,有利于规范网络购物这种新的购物方式。参考文献:1 J.R.Quinlan. Induction of decision treesJ. Machine Learning.1986 (1):3-7.2王永梅,胡学钢.决策树中 ID3 算法的研究J. 安徽大学学报 :自然科学版,2011,35(3):71-75.3王晓原,杨新月. 基于决策树的驾驶行为决策机制研究J.系统仿真学报,2008,20(2):415-419.机器学习课程报告4 王苗,柴瑞敏.一种改进的决策树分类属性选择方法J.计算机工程与应用.2010(8):11-15.5 杨静,张楠男,李建,刘延明,梁美红,决策树算法的研究与应用J. 计算机技术与发展,2010(2):114-116.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报