收藏 分享(赏)

数据挖掘习题及解答-完美版.doc

上传人:weiwoduzun 文档编号:2625184 上传时间:2018-09-23 格式:DOC 页数:5 大小:64KB
下载 相关 举报
数据挖掘习题及解答-完美版.doc_第1页
第1页 / 共5页
数据挖掘习题及解答-完美版.doc_第2页
第2页 / 共5页
数据挖掘习题及解答-完美版.doc_第3页
第3页 / 共5页
数据挖掘习题及解答-完美版.doc_第4页
第4页 / 共5页
数据挖掘习题及解答-完美版.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20 分)考虑下表的数据集。顾客 ID 性别 车型 衬衣尺码 类1234567891011121314151617181920男男男男男男女女女女男男男男女女女女女女家用运动运动运动运动运动运动运动运动豪华家用家用家用豪华豪华豪华豪华豪华豪华豪华小中中大加大加大小小中大大加大中加大小小中中中大C0C0C0C0C0C0C0C0C0C0C1C1C1C1C1C1C1C1C1C1(1)计算整个数据集的 Gini 指标值。(2)计算属性性别的 Gini 指标值(3)计算使用多路划分属性车型的 Gini 指标值(

2、4)计算使用多路划分属性衬衣尺码的 Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?解:(1)类 顾客c0 10c1 10Gini=1-(10/20)2-(10/20)2=0.5(2)性别 男 女c0 6 4c1 4 6Gini=1-(6/10)2-(4/10)2*1/2*2=0.48(3)车型 家用 运动 豪华c0 1 8 1c1 3 0 7Gini=1-(1/4)2-(3/4)2*4/20+1-(8/8)2-(0/8)2*8/20+1-(1/8)2-(7/8)2*8/20=26/160=0.1625(4)尺码 小 中 大 加大c0 3 3 2 2c1 2 4 2 2

3、Gini=1-(3/5)2-(2/5)2*5/20+1-(3/7)2-(4/7)2*7/20+1-(2/4)2-(2/4)2*4/20*2=8/25+6/35=0.4914(5)比较上面各属性的 Gini 值大小可知,车型划分 Gini 值 0.1625 最小,即使用车型属性更好。2. (20 分)考虑下表中的购物篮事务数据集。顾客 ID 事务 ID 购买项1122334455001002400120031001500220029004000330038a,d,ea,b,c,ea,b,d,ea,c,d,eb,c,eb,d,ec,da,b,ca,d,ea,b,e(1) 将每个事务 ID 视为一个

4、购物篮,计算项集e,b,d 和b,d,e 的支持度。(2)使用(1)的计算结果,计算关联规则 b,de和eb,d 的置信度。(3)将每个顾客 ID 作为一个购物篮,重复(1) 。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为 1,否则,为 0) 。(4)使用(3)的计算结果,计算关联规则b,de和eb,d 的置信度。 答:(1)由上表计数可得 的支持度为 8/10=0.8; ,的支持度为2/10=0.2; b,d,e的支持度为 2/10=0.2。(2)cb,de=2/8=0.25; ceb,d=8/2=4。(3)同理可得:e的支持度为 4/5=0.8,b,d的支持

5、度为 5/5=1, b,d,e的支持度为 4/5=0.8。(4)cb,de=5/4=1.25 ,ceb,d=4/5=0.8。3. (20 分)以下是多元回归分析的部分 R 输出结果。 ls1=lm(yx1+x2) anova(ls1)Df Sum Sq Mean Sq F value Pr(F) x1 1 10021.2 10021.2 62.038 0.0001007 *x2 1 4030.9 4030.9 24.954 0.0015735 * Residuals 7 1130.7 161.5 ls2 anova(ls2)Df Sum Sq Mean Sq F value Pr(F) x2

6、1 3363.4 3363.4 20.822 0.002595 * x1 1 10688.7 10688.7 66.170 8.193e-05 *Residuals 7 1130.7 161.5 (1)用 F 检验来检验以下假设 ( = 0.05)H0: 1 = 0Ha: 1 0计算检验统计量;是否拒绝零假设,为什么?(2)用 F 检验来检验以下假设 ( = 0.05)H0: 2 = 0Ha: 2 0计算检验统计量;是否拒绝零假设,为什么?(3)用 F 检验来检验以下假设 ( = 0.05)H0: 1 = 2 = 0Ha: 1 和 2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(

7、1)根据第一个输出结果 F=62.083F(2,7)=4.74,pF(2,7)=4.74,pF=(2,7)=4.74,即拒绝原假设,得到 和 并不都等于 0。4. (20 分)考虑下面 20 个观测值:1 -20.00 -0.516 -1.249 -0.510 25.0006 -0.561 -0.928 -0.023 0.714 0.37411 -0.377 0.830 0.838 0.874 -1.30616 1.138 1.087 -1.489 2.524 0.713(1)用 3*S 标准来检测该数据中是否存在异常值。(2)用 1.5*IQR 标准来检测该数据中是否存在异常值。要求提供均值

8、、标准差、IQR 值和所用的区间,以及你判断的依据。解:数据放入 R 运行得 hhh=c(-20.00,-0.516,-1.249,-0.510,25.000, + + -0.561,-0.928,-0.023,0.714,0.374, + + -0.377,0.830,0.838,0.874,-1.306,+ + 1.138,1.087,-1.489,2.524,0.713) mean(hhh)1 0.35665 sqrt(var(hhh)1 7.405346 jjj which(abs(jjj)=3)1 5 Q1=quantile(hhh,0.25) Q3=quantile(hhh,0.7

9、5) IQR=Q3-Q1 Q125% -0.65275 Q375% 0.847 IQR75% 1.49975 kk ll which(hhh which(hhhll)1 5(1)由以上数据处理可得第五个数据 25.00 为异常值。(2)由数据分析可以得出第一个-20.00 和第五个 25.00 均为异常值。5. 简述题 (20 分) 。(1) 在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K 均值分析和DBSCAN 分析。其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等

10、,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。但对于想要知道其他几类的分类情况就需要重新计算分析。DBSCAN 分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。(2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这些子任务中的工作原理。答:主要分为两个子任务:频繁项集的产生和关联规则的产生。第一种算法是 Apriori 算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采取逐层检验步骤,计算各项的支持度和置信度大小和阕值比较,即测试过程;对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作,即剪枝过程;直到没有新的非频繁项集产生时,执行算法结束过程。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报