1、1. 假定下面的表从面向属性的归纳导出:Class birth_place countProgrammer Canada 180Others 120 DBA Canada 20Others 802.假定分析数据包含属性 age。数据元祖的 age 值(以递增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)该数据的中值位数是多少?中列数是多少?(b)粗略地找出数据的 Q1 和 Q3, 给出数据的五数概括。(c)画出数据的盒图。1.(a) Class/birth_pla
2、ce Canada othersCount t_权 d_权 Count t_权 d_权Programmer 180 60% 90% 120 40% 60%DBA 20 20% 10% 80 80% 40%(B) X , c l a s s ( x ) = “ P r o g r a m m e r ” ( b i r t h _ p l a c e ( X ) = “ C a n a d a ” ) t : 6 0 % , d : 9 0 % V ( b i r t h _ p l a c e ( X ) = “ o t h e r s ” ) t : 4 0 % , d : 6 0 % 该规
3、则说明: 如果有一个人是 Programmer,则这个人来自加拿大 Canada 的概率为 60%,来自其它地方的概率为 40。 另一方面,如果我们比较 Programmer 和 DBA 两大类:在 Canada,有 90的成员是 Programmer(由此推出 10的成员是 DBA).在其他国家,有 60的成员是 Programmer(由此推出 40的成员是DBA) .2.(a)该数据的中值位数是 25,中列数是(13+70)/2=41.5(b)粗略地找出数据的 Q1 和 Q3, 给出数据的五数概括。Q1=20, Q3=35, 五数概括:13,20,25,35,70(c)画出数据的盒图。IQR=Q3-Q1=15 1.5IQR=22.520-13=7 要画出 min 值70-35=351.5IQR = 不要画出 max 值,只要标出 52(极端观测值)Q1MQ3Min极端观测值