1、精品文档一、填空题(15分)1 .数据仓库的特点分别是 面向主题、集成、相对稳定、反映历史变化。2 .元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3 .OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。4 .基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中上业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。5 .ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。二、多项选择题(10分)6 .在数据挖掘的分
2、析方法中,直接数据挖掘包括(ACD )A分类 B 关联 C 估值 D 预言7 .数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取 B数据转换C 数据加载 D数据稽核8 .数据分类的评价准则包括(ABCD )A精确度 B查全率和查准率C F-Measure D几何均值9 .层次聚类方法包括(BC )A划分聚类方法 B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法10 .贝叶斯网络由两部分组成,分别是( A D )A网络结构 B 先验概率 C后验概率 D 条件概率表三、计算题(30分)11 . 一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机
3、业务中卖出的项目,假定supmin=40% confmin=40%使用AprioH 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大 项目集。(15分)事务项目事务项目T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:(1)由I=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选C,计算其支持度,取出支持度小于SUpmin的项集,形成1-频繁集L1,如下表所示:项集C1支持度项集L1支持度面包4/5面包4/5花生酱3/5花生酱3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5(2)组合连接Li中的各项目,产生 2-候选集C,计算其支持度,取出
4、支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度面包、花生酱3/5面包、花生酱3/5至此,所有频繁集都被找到,算法结束,所以,confidence (面包花生酱) = (4/5) / (3/5) =4/3 confconfidence花生酱 - 面包) = ( 3/5 ) / (4/5 ) =3/4 conf min所以,关联规则面包-花生酱、花生酱-面包均是强关联规则。12 .给定以下数据集(2,4, 10, 12, 15, 3, 21),进行K-Means聚类,设定聚类数为 2个,相似度按照 欧式距离计算。(15分)解:(1)从数据集X中随机地选择
5、k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由 题可知k=2,则可设 m=2, m=4:(2)对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的距离,并且将它划分到距离 最近的初始代表点所表示的类别中:当 m=2时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离 分别为 2, 8, 10, 13, 1 , 19。当m=4时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为 -2, 6, 8, 11,-1, 17。最小距离是1或者-1将该元素放入 m=2的聚类中,则该聚类为(2,3),另一个聚类
6、m=4为(4, 10, 12, 15, 21)。(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的 新的代表点,由此得到 k个均值代表点:m=2.5 , m=12:(4)对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的距离,并且将它划分到距离 最近的初始代表点所表示的类别中:当 m=2.5时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距 离分别为-0.5 , 0.5 , 1.5 , 7.5 , 9.5 , 12.5 , 18.5。当m=12时,样本(2 , 4, 10, 12, 15, 3, 2
7、1)距离该代表点的距离分别为-10, -9, -8, 2, 3, 9。最小距离是1.5将该元素放入 m=2.5的聚类中,则该聚类为(2, 3, 4),另一个聚类 m=12为(10, 12, 15, 21)。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的_02欢迎下载精品文档新的代表点,由此得到 k个均值代表点:mi=3, m2=14.5:(6)对于X中的任意数据样本xm (1xm25.过滤:过滤后的字段。Region,tenure,age,marital,churn.类型字陵region tenureage mariMI chum类型值集 _万死
8、国(1J2JHha M-rd nn 盲兀*B F ? $ 夕夕夕0,1口 115 .给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部 分结果。(10分)17=1tZ|-yZ LjUlr 二 l 曰& r-i=F-3 口3 C&Cl.h 曰二I 5r=*-v-r-nsiritsU C O . l-i-t 曰口 H- i - & q= _.rri s r I C O. O 仁一 也yir-1 |_-I r & -vq 口 lion1 3 -1 O O l=j- -crgj二 吕曰年心之 口一曰 Ga-rTi-nf-ii-tsi T-&i-hi_jir& r
9、a-i. vmtjuoc -i _qi 口口 Teh=1 aCN:MS_q 三口 :三;寻!r=mnirifnl 之F n STr=t -11 J (=* f 3 口 A hF=fi )金I-G micc c-1 -一 F nnF3si-anr- j=tF-i16.对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。(15分)答:k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的 主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生 成的每个聚集类的紧凑,类间独立。操作步骤:输入:
10、数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别(2)对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的距离,并且将它划分到距离 最近的初始代表点所表示的类别中(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的 新的代表点,由此得到 k个均值代表点(4)对于X中的任意数据样本xm (1xmtotal ),计算它与k个初始代表点的距离,并且将它划分到距离 最近的初始代表点所表示的类别中(5)重复3.4,直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优欢迎您的下载,资料仅供套考!致力为企业和个人提供合同协议, 策划案计划书,学习资料等等打造全网一站式需求5欢迎下载