1、题一: 一阶项目集 支持度 a 5 b 4 c 2 d 5 e 3 f 4 g 6 一阶频繁集 支持度 a 5 b 4 d 5 f 4 g 6 二阶候选集 支持度 ab 3 ad 4 af 2 ag 5 bd 3 bf 1 bg 3 df 3 dg 4 fg 3 二阶 频繁集 支持度 ad 4 ag 5 dg 4 三阶候选集 支持度 adg 4 三阶频繁集 支持度 adg 4 题二 Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Dist
2、ance(G,F)2=0.05 G的三个最近的邻居为 B,F,A,因此 G的分类为湖泊水 Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22 Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为 A,D,F,因此 H的分类为冰川水 题三 首先计算各属性的信息增益 Gain(Ca+浓度 )=0 Gain(Mg+浓度 )=0.185 Gain(Na+浓度 )=0 Gain(Cl-浓度 )=0.32 选择 Cl-浓度作为根节点 计算各属性
3、的信息增益 Gain(Ca+浓度 )=0 Gain(Mg+浓度 )=0.45 Gain(Na+浓度 )=0.24 选择 Mg+浓度作为节点 Cl-浓度 冰川水 ? 高 低 Cl-浓度 冰川水 Mg+浓度 高 低 高 低 ? 湖泊水 计算各属性的信息 增益 Gain(Ca+浓度 )=0.24 Gain(Na+浓度 )=0.91 题四 P(Ca+浓度 =低, Mg+浓度 =高, Na+浓度 =高, Cl-浓度 =低 | 类型 =冰川水 )*P(冰 川水 ) =P(Ca+浓度 =低 | 类型 =冰川水 )* P(Mg+浓度 =高 | 类型 =冰川水 )* P(Na+浓度 = 高 | 类型 =冰川水
4、)* P(Cl-浓度 =低 | 类型 =冰川水 ) *P(冰川水 ) =0.5*0.75*0.5*0.5*0.5=0.0468 高 低 Cl-浓度 冰川水 Mg+浓度 高 低 Na+浓度 湖泊水 高 低 湖泊水 冰川水 P(Ca+浓度 =低 , Mg+浓度 =高, Na+浓度 =高, Cl-浓度 =低 | 类型 =湖泊水 )*P(湖 泊水 ) =P(Ca+浓度 =低 | 类型 =湖泊水 )* P(Mg+浓度 =高 | 类型 =湖泊水 )* P(Na+浓度 = 高 | 类型 =湖泊水 )* P(Cl-浓度 =低 | 类型 =湖泊水 ) *P(湖泊水 ) =0.5*0.25*0.5*1*0.5=0
5、.03123 第一个样本为冰川水 P(Ca+浓度 =高, Mg+浓度 =高, Na+浓度 =低, Cl-浓度 =高 | 类型 =冰川水 )*P(冰 川水 ) =P(Ca+浓度 =高 | 类型 =冰川水 )* P(Mg+浓度 =高 | 类型 =冰川水 )* P(Na+浓度 = 低 | 类型 =冰川水 )* P(Cl-浓度 =高 | 类型 =冰川水 ) *P(冰川水 ) =0.5*0.75*0.5*0.5*0.5=0.0468 P(Ca+浓度 =高, Mg+浓度 =高, Na+浓度 =低, Cl-浓度 =高 | 类型 =湖泊水 )*P(湖 泊水 ) =P(Ca+浓度 =高 | 类型 =湖泊水 )*
6、 P(Mg+浓度 =高 | 类型 =湖泊水 )* P(Na+浓度 = 低 | 类型 =湖泊水 )* P(Cl-浓度 =高 | 类型 =湖泊水 ) *P(湖泊水 ) =0.5*0.25*0.5*0*0.5=0 第二个样本为冰川水 题五 A,B,C,D,E,F,G之间的距离矩阵如下表 A B C D E F G A B 1 C 2 5 D 41 50 45 E 5.42 5.50 5.48 5.0 F 25.28 25.36 25.31 25.1 1.5 G 68 65 90 45 5.36 25.46 根据距离矩阵建立的树如下 题六 第一次迭代以 A, B作为平均点,对剩余的点根据到 A、 B的距离进行分配 A,C,D,E,F,G,H, B 计算两个簇 的平均点 (6.5, 1.7), (4, 5) 第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇 D,E,F,H和 A,B,C,G 计算两个簇的平均点 B C D A E F G (9.1, 0.5), (3.25, 3.75) 第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇 D,E,F,H和 A,B,C,G 由于所分配的簇没有发生变化,算法终止。