1、1,第三章 敘述統計量,陳順宇 教授 成功大學統計系,2,統計量,學習如何將資料轉變成一個(或幾個) 統計量, 如樣本平均數, 標準差s等,但由於這種數是由樣本算出,因此也稱為”樣本統計量”(Sample Statistic)或簡稱統計量,3,3.1 3種不同型式的統計量,1.集中趨勢的統計量 2.位置的統計量 3.離勢的統計量,4,3.2 集中趨勢統計量,集中趨勢的統計量主要是決定資料的“中心點”,或是最能“代表”此組數據的數。,5,常用的統計量有,平均數(Mean), 中位數(Median), 眾數(Mode), 去頭尾平均數(Trimmed Mean),及 加權平均數(Weighted
2、Mean),6,樣本平均數,7,母體平均數,8,例3.1、,由某校抽樣11位同學,每人罰球投籃10次,投中次數分別為3 2 3 7 4 3 6 4 3 3 6求樣本平均數=?,9,平均投中4次,10,平均投中比例,11,例3.2 、(例1.9 續),抽樣50位台南市成年市民,求(1) 50位市民樣本平均身高(2) 男生的平均身高(3) 女生的平均身高。,12,50位市民的平均身高,13,25位男生平均身高,14,25位女生平均身高,15,例3.3、(例2.2續),全班50位學生統計學期中考試成績如表2.2, 求全班成績的母體平均數,16,母體平均數,17,2.中位數,所謂中位數是資料從小排到大
3、,經排序後“最中間的數”, 也就是當資料有奇數個時,中位數是排序最中間的數, 而當資料有偶數個時,中位數為排序最中間的兩個數的平均。,18,大約有一半的數據小於或等於中位數大約有一半的數據大於或等於中位數 中位數以Me表示,19,例3.4、(例3.1續),求11位同學投中次數的中位數,20,中位數為3,2 3 3 3 3 3 4 4 6 6 7,21,例3.5、(例3.3續),求全班50位學生統計學期中考試成績的中位數?,22,中位數=62,50位學生的成績排序如表2.2, 中間位置為25.5, 因此以排序25的62分與排序26的62分的平均 (62+62)/2=62 當做中位數,23,中位數
4、,24,3.眾數(Mode),眾數就是資料中出現頻率最多的數,25,例3.6、(例3.1續),求11位同學投中次數的眾數,26,眾數=3,11位同學投中次數頻率最多的是投中 “3” 次,共出現 5 次, 因此 “3“就是此組資料的眾數,27,例3.7、(例3.3續),求50位學生統計學期中考成績的眾數,28,眾數=60,在50位學生成績中,60分的有4位,出現的次數最多, 所以60分即為此組資料的眾數,29,4.去頭尾平均數,去頭與去尾的筆數相等 且去掉的筆數為 ,其中n為樣本數。 例如n=32, =0.2(即80%),則去頭及去尾的筆數各為3筆,因32 0.2/2=3.2=3,30,例3.8
5、、(例3.1續),求11位同學投中次數的80%去頭尾平均數,31,去頭與去尾的筆數分別為,32,33,5.加權平均數,34,國文78分、英文83分、 數學65分、理化70分地科75分、歷史76分、 地理74分、公民94分則以上課時數加權的學年平均成績為: (5 78+5 83+5 65+3 70+3 75 +2 76+2 74+2 94)/27= 2053/27 = 76.0370,35,3.3 位置統計量,位置的量測 百分位數(Percentile) 四分位數(Quartile),36,p百分位數,37,例3.11、(例2.1續),(1)求全班成績的85百分位數是多少? (2)求全班成績的6
6、0百分位數是多少?,38,39,85百分位數,40,60百分位數,41,. 四分位數,Q1= 25百分位數 Q2= 50百分位數=中位數 Q3= 75百分位數,42,例3.12、(例3.11續),求Q1 , Q2 , Q3,43,44,3.4 離勢統計量,全距、 四分位距、 平均絕對偏差、 變異數、 標準差、 變異係數,45,全距 R,46,例3.13、(例3.1續),求11位學生投中次數的全距 R= 7 2 =5,47,例3.14、(例3.3續),求50位學生統計學期中考成績的全距 R=9732 = 65,48,2. 四分位距,IQR = Q3Q1,49,例3.15、(例3.1續),求11位
7、學生投中次數的四分位距IQR = Q3 Q1= 4 3 =1,50,例3.16、(例3.12續),求50位學生統計學期中考成績的四分位距 IQR= Q3Q1= 7454 = 20,51,平均絕對偏差,52,例3.17、(例3.1續 ),求11位同學投中次數的絕對偏差,53,54,55,變異,變異(Variation)是每一筆資料與中心點差距(稱為偏差)的平方和, 即變異為偏差平方和,56,可證明,57,樣本變異數,58,母體變異數,59,例3.18、(例3.1續),求11位同學投中球數的變異及變異數,60,61,x的變異,62,例3.19、(例3.3續),求全班50位學生統計學期中考成績的母體
8、變異數,63,64,65,樣本標準差,66,母體標準差,67,甲乙兩人打靶 您會收那一位為徒,68,例3.20、(例3.18續),求11位同學投中次數的標準差,69,70,例3.21、(例3.2續),求50位台南市成年市民身高的樣本變異數 與樣本標準差,71,樣本變異數 與樣本標準差,72,例3.22、(例3.19續),求全班50位學生統計學期中考成績的母體標準差,73,74,母體標準差,75,變異係數,76,77,身高與體重變異係數,78,例3.23、某人想投資 甲、乙兩投資策略,79,80,對稱的直方圖,81,右偏的直方圖,82,左偏的直方圖,83,3.6 經驗法則與謝比雪夫不等式,一組資
9、料,算出樣本平均數及樣本標準差s後, 我們可能進一步問資料落在與平均數相差兩個標準差以內的比例會是多少? 像這類問題,經驗法則與謝比雪夫不等式(Chebyshevs Inequality)提供部份答案,84,“鐘形“的資料,經驗法則,85,謝比雪夫提供一個較“粗糙“的答案,但它對任何形態的資料分配都適用,86,例3.25、(例3.10續),試以謝比雪夫不等式及經驗法則 求資料落在與平均數相差1個標準差以內、2個標準差以內、3個標準差以內,所佔比例並與實際結果做比較,87,88,89,90,3.7相關係數,1. 經理想了解產品價格與銷售量是否有相關? 2. 教育學者想了解 IQ成績與教學成績是有
10、相關? 3.醫生想了解人出生時的體重與壽命是否有相關? 4. 房地產公司想了解房價與物價是否有相關?,91,關係程度有多高?,要了解是否有相關,最直接的方法便是畫散佈圖, 但有時除了要知道是否有相關外,也想要知道關係程度有多高? 此即本節所要介紹的相關係數,92,樣本相關係數(簡稱相關係數 ),93,相關係數,94,例3.26、,研究某產品定價(x)(單位:元)與銷售量(y)(單位:箱)的關係,在12個地區做實驗, 結果資料如下:(實際價格為x+50元),95,產品廣告費(x)與銷售量(y) 資料,96,標準化法,97,98,五行合計法,99,100,101,廣告費(x)與銷售量 (y)相關係
11、數,102,例3.27、10位學生的 數學(x)、統計(y)成績,103,數學、統計偏差與偏差乘積,104,平方和,105,數學與統計相關係數,106,資料標準化,107,數學與統計相關係數,108,(1) 由定義可以看出相關係數是純量,它的大小與單位無關(或說相關係數是單位不變量)。,109,(2)由看出,如果大部份 ,同向(同正或同負),則r是正的。 反之,如果大部份反向(一正一負),則 r是負的。,110,(3) r 0 表 x 值增加時,y值有增加的傾向;r 0 表 x值增加時,y 值有減少的傾向。,111,r =1,112,r = -1,113,r = 0.9,114,r = 0.5
12、,115,r = -0.9,116,r = -0.5,117,r = 0,118,r = 0 U形曲線相關,119,正的曲線相關,120,負的曲線相關,121,相關係數 因果關係,變數間有相關不一定有因果關係,122,例3.28、離婚率與出國人數,123,(1) 試畫出離婚率對出國人數的散佈圖; (2) 求離婚率與出國人數的相關係數; (3) 試問離婚率與出國人數是否有因果關係?,124,離婚率對出國人數的散佈圖,125,相關係數 r0.9225,126,如離婚率是因,出國人數是果,即離婚率高低會影響出國人數,這表示什麼? 它的意義可能是台灣地區這幾年來離婚人數增加, 這些離婚的人(或其親朋好
13、友)為了散心到國外,造成出國人數的增加。,127,如出國人數是因,離婚率是果,可能解釋是國人出國後,看見外國人很開放,也就見異思遷,回國後就和老伴離婚了,128,事實上並非如此,過去幾年,台灣地區由於經濟的成長,國民所得的增加、社會的開放, 造成女性同胞經濟獨立,不需要靠長期飯票,也有多餘的錢到國外旅遊,,129,所以這幾年來離婚率不斷地增加,出國人數也不斷地增加,都是受第三者(經濟成長(GNP)等因素)的影響所造成, 離婚率與出國人數的相關是一種間接相關,130,離婚率與GNP,131,出國人數與GNP,132,例3.29、身高與髮長,133,身高對髮長的散佈圖,134,相關係數r0.81,
14、135,髮長(y)對身高(x)的散佈圖,136,頭髮長度有愈短的現象,此散佈圖仍呈現身高愈高的人,頭髮長度有愈短的現象,事實上頭髮長度與身高並沒有關係, 它們都是受第三個變數性別的影響,男生頭髮較短但身高較高,女生頭髮較長,身高較矮。,137,20位女生平均身高160.7公分,平均髮長25.2公分; 30位男生平均身高172.4公分,平均髮長7.5公分,138,30位男生髮長對身高的散佈圖,139,20位女生髮長對身高的散佈圖,140,髮長與身高的關係是間接的,男生的髮長對身高散佈圖,看起來很亂,表示髮長與身高無關(-0.23), 同樣的女生的髮長與身高的相關係數也很低(0.11)。 所以控制
15、性別後,髮長與身高就沒有相關了,,141,兩組相關(或稱成對)的資料,相加後其平均數及標準差,(1)兩組資料相加的平均 = 兩組資料個別平均再相加,對否?(2)兩組資料相加的標準差是否等於兩組資料個別標準差的相加呢?對否?,142,1.統計量是由觀察資料組成,如平均數、標準差,會隨觀察(或抽樣) 資料不同而得到不同的答案,所以統計量是“隨機變數”,,143,2.統計量與參數的差異,前者是可算的,後者是“未知的”定數,統計量可用來“估計”參數, 但估計會有誤差, 如何使誤差愈小愈好是學習統計必須了解的。,144,3. “平均數”代表資料中心點,但有敏感性(或稱不穩健性),會受某些大數據的影響,145,4.了解標準差的意義,,何種情況下標準差愈大愈好(如評分、區別等問題),何種情況下標準差愈小愈好(如品質問題),146,5.右偏(或稱正偏)分配時,平均數大於中位數。,147,6.做統計推論最主要的 兩個統計量是,樣本平均數與樣本變異數,148,7.資料分佈呈鐘形時,經驗法則提供較精確的機率比例, 不知資料分佈形態時,謝比雪夫提供較粗糙的機率不等式,149,8.量測兩個變數線性相關程度的指標為相關係數, 但兩變數有相關一定有因果關係,