收藏 分享(赏)

数据仓库与数据挖掘习题课PPT课件.ppt

上传人:微传9988 文档编号:3388299 上传时间:2018-10-22 格式:PPT 页数:19 大小:1.02MB
下载 相关 举报
数据仓库与数据挖掘习题课PPT课件.ppt_第1页
第1页 / 共19页
数据仓库与数据挖掘习题课PPT课件.ppt_第2页
第2页 / 共19页
数据仓库与数据挖掘习题课PPT课件.ppt_第3页
第3页 / 共19页
数据仓库与数据挖掘习题课PPT课件.ppt_第4页
第4页 / 共19页
数据仓库与数据挖掘习题课PPT课件.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、数据仓库与数 据 挖 掘,主讲教师:王浩畅 E-mail: wanghch_ School of Computer & Information Technology of NEPU,习题课1,习题2.9,假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果(a)计算年龄和脂肪百分比的均值、中位数和标准差 (b)绘制年龄和脂肪百分比的盒图 (c)根据这两个属性,绘制散布图和q-q图 (d)根据Z-score规范化来规范化这两个属性 (e)计算相关系数。这两个变量是正相关还是负相关?,解答2.9,(a)计算年龄和脂肪百分比的均值、中位数和标准差 age的均值= age的中位数=age

2、的标准差= = 12.85 %fat的均值= 28.78 将%fat 排序 %fat 的中位数= %fat的标准差= 8.99,解答2.9(续),(b)绘制年龄和脂肪百分比的盒图 离群点:当值超过四分位数不到1.5IQR,解答2.9 (续),(c)根据这两个属性,绘制散布图和q-q图,解答2.9 (续),(d)根据Z-score规范化来规范化这两个属性(e)计算相关系数。这两个变量是正相关还是负相关? The correlation coefficient is 0.82. The variables are positively correlated.,习题2.12,假定用于分析的数据包含属

3、性age.数据元组age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) 使用min-max规范化将age值35变换到0.0,1.0区间。 (b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。 (c) 使用小数定标规范化变换age值35。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。,解答2.12,(a) 使用min-max规范化将age值35变换到0.0,1

4、.0区间。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35,(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。,解答2.12(续),(c) 使用小数定标规范化变换age值35。由于最大的绝对值为70,所以j=2。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释,习题2.14,2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将

5、其划分成三个箱。 (a) 等频(等深)划分。 (b) 等宽划分。 (c) 聚类。,解答2.14,(a) 等频(等深)划分。(b) 等宽划分。每个区间的宽度是:(215-5)/3=70(c) 聚类。我们可以使用一种简单的聚类技术:用2个最大的间隙将数据分成3个箱。,习题3.4,3.4假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept,

6、 rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。 (a)为该数据仓库画出雪花形模式图。 (b)由基本方体student, course, semester, instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 (c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?,解答3.4,解答3.4,b)由基本方体student, cours

7、e, semester, instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。这些特殊的联机分析处理(OLAP)操作有: 沿课程(course)维从course_id“上卷”到department。 沿学生(student)维从student_id“上卷”到university。 取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。 沿学生(student)维从university下钻到student_name。 c)如果每维有5层(

8、包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体? 这个立方体将包含54=625个方体。,习题3.5,3.5 假定数据仓库包含4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2个度

9、量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 (a) 画出该数据仓库的星形模式图。 (b) 由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?,解答3.5,解答3.5,(b)由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 这些特殊的联机分析处理(OLAP)操作有: 沿date维从date id “上卷”到year 沿game维从game id “上卷”到all 沿location维从location id “上卷”到location name 沿spectator维从spectator id “上卷”到status 取status=“students”,location name=“GM Place”和year=2004切块,Thank You !,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报