1、 99年高上高普考 高分詳解 - - 1 迴歸分析 試題評析 本迴歸分析只考四題,第一題為簡單迴歸,應屬送分題。第二題為複迴歸;缺截距項,求OLSE與E( 1 )、 V( 1 )的結果,只要將迴歸模型含截距項的結果中, Y X、 代0即可。第三題是比較複迴歸之ANOVA F-test與 偏F-test之差性。中上程同學,二、三題應該都可以拿到分。至於第四題為確認群值之後,檢測群 值是否對迴歸模型具有影響,屬於比較僻題型,公式難記、拿分。 一、今對一組樣本資 ii (x ,y ),i1 , 2 0 = LL 適配一簡單線性迴歸模型 i01ii YX =+ + ,其中 i 為 2 i.i.d.N(
2、0, ) 。已知 1,18,0.05 F3 . 0 1 = ,x6 = ,y1 5 = , 2 i (x x) 25 = , 2 i (y y) 208 = , ii (x x)(y y) 40 = 。 (一)試寫此模型之變分析(Analysis of Variance)表。(10分) (二)試求此一迴歸線之斜與截距。(10分) (三)試求此一迴歸線斜 1 之90%信賴區間。(5分) 答: (一) 208 = = YY S SSTO 64 25 40 2 2 = = = XX XY S S SSR 144 = = SSR SSTO SSE table ANOVA 變源 平方和 自由 均方 F
3、值 迴歸 64 1 64 誤差 144 18 8 8 總和 208 19 (二) (1) 6 . 1 25 40 1 = = = XX XY S S 斜 (2) 4 . 5 6 6 . 1 15 1 0 = = = x y 截距 (三) C.I. 90% 1 之 XX S MSE t = ) 2 20 ( 2 1 . 0 1 ) 2.5814 , 6186 . 0 ( 9814 . 0 6 . 1 25 8 01 . 3 6 . 1 = = = 二、 1i 2i i (x ,x ,y ),i1 , , n = LL 彼此獨且自截距項為的線性迴歸模型 i1 1 i22 ii YXX = + +,
4、其 中 i 為 2 i.i.d.N(0, ) 。 99年高上高普考 高分詳解 - - 2 (一)試求 1 與 2 之最小平方估計 1 與 2 。(15分) (二)試求 1 E( ) 與 2 Var( ) 。(10分) 答: (一) = = n i i i i X X Y Q 1 2 2 2 1 1 ) ( = = = = = = n i i i i i n i i i i i X X X Y Q X X X Y Q 1 2 2 2 1 1 2 1 1 2 2 1 1 1 0 ) ( 2 0 ) ( 2 = + = + = = = = n i n i i i i n i i i n i n i
5、i i i i n i i Y X X X X Y X X X X 11 2 2 2 2 1 1 2 1 11 1 2 2 1 1 1 2 1 = = = = = = = = = n i i n i i i n i i i n i i n i i n i i i n i i i n i i i X X X X X X X Y X X X Y X 1 2 2 1 2 1 1 2 1 1 2 1 1 2 2 1 2 1 2 1 1 1 1 2 1 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 2 2 ) ( ) )( ( ) )( ( ) )( ( = = = = = = = =
6、 n i i i n i i n i i n i i i n i i i n i i i n i i X X X X Y X X X Y X X同 2 1 2 1 1 2 2 1 2 1 1 1 1 2 1 1 2 1 2 1 2 ) ( ) )( ( ) )( ( ) )( ( = = = = = = = = n i i i n i i n i i n i i i n i i i n i i i n i i X X X X Y X X X Y X X (二) (1) = = = = = = = = 2 1 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 2 2 1 ) ( )
7、 )( ( ) )( ( ) )( ( n i i i n i i n i i n i i i n i i i n i i i n i i X X X X Y X X X Y X X E E 99年高上高普考 高分詳解 - - 3 2 1 2 1 1 2 2 1 2 1 11 2 2 2 2 1 1 1 2 1 11 2 1 2 2 1 1 1 2 2 ) ( ) )( ( ) )( ( ) )( ( = = = = = = = n i i i n i i n i i n i n i i i i n i i i n i n i i i i n i i X X X X X X X X X X X
8、 X X 2 1 2 1 1 2 2 1 2 1 1 2 1 2 1 2 1 1 2 2 1 ) ( ) )( ( ) ( ) )( ( = = = = = = n i i i n i i n i i n i n i i i i n i i X X X X X X X X 1 = (2) = = = = = = = = 2 1 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 2 2 1 ) ( ) )( ( ) )( ( ) )( ( ) ( n i i i n i i n i i n i i i n i i i n i i i n i i X X X X Y X X X Y
9、X X V V 2 2 1 2 1 1 2 2 1 2 1 1 2 2 2 2 1 2 1 1 2 1 2 2 1 2 2 ) ( ) )( ( ) ( ) ( ) ( ) ( = = = = = = = = n i i i n i i n i i n i i n i i i n i i n i i X X X X X X X X X 2 2 1 2 1 1 2 2 1 2 1 2 1 2 1 1 2 1 1 2 2 1 2 2 2 ) ( ) )( ( ) ( ) )( ( = = = = = = = = n i i i n i i n i i n i i i n i i n i i n i
10、 i X X X X X X X X X 2 2 1 2 1 1 2 2 1 2 1 1 2 2) ( ) )( ( = = = = = n i i i n i i n i i n i i X X X X X2 1 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 2 2 ) ( ) )( ( ) )( ( ) )( ( = = = = = = = n i i i n i i n i i n i i i n i i i n i i i n i i X X X X EY X X X EY X X 99年高上高普考 高分詳解 - - 4 三、某一研究想要知道房屋的價格Y與房屋的坪X1
11、,屋齡X2,房間X與空屋X的關係。今收集 30間房屋的資並對此資配適一迴歸模型 3i i 0 1 1i 2 2i 3 4 4i i YXXXX =+ + + + + ,其中 i 為 2 i.i.d.N(0, ) 。已知 2,27,0.05 F3 . 3 5 = , 2,25,0.05 F3 . 3 9 = 。 Source of Variation(變源) SS df MS SSR(X1,X2,X3,X4) 300 4 75 SSR(X3,X4,|X1,X2) 40 2 20 SSR(X3,X4) 150 2 75 SSE(X1,X2,X3,X4) 200 25 8 (一)假設迴歸模型中僅考慮
12、房間X與空屋X。試就此模型在 0.05 = 下檢定 034 H: 0 = =。 (請務必將完整之檢定寫出,包括H0,H1,檢定,拒絕區域,結等)(10分) (二)假設迴歸模型中已考慮坪X1與屋齡X2。試就此模型在 0.05 = 下檢定 0 4 3 0 = = : H 。 (請務必將完整之檢定寫出,包括H0,H1,檢定,拒絕區域,結等)(10分) (三)試解釋上面小題結果盡相同之原因。(5分) 答: (一)model: i i i i X X Y + + + = 4 4 3 3 0) ( ) ( 4 3 2 1 4 3 2 1 X X X X SSE X X X X SSR SSTO + = 5
13、00 200 300 = + = ) ( ) ( 2 1 2 1 X X SSR SSTO X X SSE = 350 150 500 = = 1.檢定假設 H0 034 H 0 1 = : :全為 2.拒絕區域 35 . 3 ) 3 - 30 , 2 ( 05 . 0 = F F F C 3.檢定統計值 C X X SSE X X SSR F = = = 78 . 5 27 350 75 ) 3 30 ( ) ( 2 ) ( 2 1 2 1reject H , , 0 03 4 有充分證據顯示 全為 (二)model: i i i i i i X X X X Y + + + + + = 4
14、4 3 3 2 2 1 1 01.檢定假設 H X , X H0 03 4 034 H X , X H 0 13 4 1 = :值得引進 : :值得引進 :全為 2.拒絕區域 39 . 3 ) 5 - 30 , 2 ( 05 . 0 = F F F C 3.檢定統計值 C X X X X SSE X X X X SSR F = = = 5 . 2 8 20 ) 5 30 ( ) ( 2 ) ( 4 3 2 1 2 1 4 3Not reject H , , 0 03 4 無充分證據顯示 全為 99年高上高普考 高分詳解 - - 5 (三) 1.在(一)中,表示房屋的價格可以用房間 ) ( 3
15、X 與空屋 ) ( 4 X 預測 2.在(二)中,表示當model已含有 1 X (坪), 2 X (屋齡)個自變時,值得引進 3 X (房屋)與 4 X (空屋 )當Y之預測變。 (一)採用迴歸ANOVA F-test與(二)偏F檢定結果未必相同 四、在模型診斷時,我們常用DFFITS, Cooks Distance,DFBETAS方法辨認具有影響的個案 (Influential cases)。 (一)試比較DFFITS, Cooks Distance,DFBETAS此三種方法之差。(15分) (二)試明此三種方法辨認具有影響的個案之判定原則。(10分) 答: (一) 1. DFFITS:剔
16、除ith個群值後,對單一適配值(fitted value)的影響。 其中, ii i i i i i h MSE Y Y DFFITS ) ( ) ( ) ( ) ) = 2.Cooks Distance:剔除ith個群值後,對所有適配值(fitted value)的影響。 其中, () pMSE Y Y D n j i j j i = = 1 2 ) ( ) )3.DFBETAS:剔除ith個群值後,對於每一個迴歸係(regression coefficients)的影響。 其中,() 1 , , 1 , 0 ) ( ) ( ) ( = = p k c MSE b b DFBETAS kk
17、i i k k i k L (二) 1.DFFITS判定原則: 對於中、小規模的資集而言,當 1 DFFITS ;或者是,大規模資集而言, n p DFFITS 2 , 則可視為群值具有影響。 2.Cooks Distance判定原則: Cooks Distance中, i D 與F(p,n-p)所對應的百分位值確認個別的影響。當百分位值小於10%或是 20%時,表示第i個個案對於適配值影響大;當百分位值大於50%時,表示第i個個案對於適配迴歸函 具有影響。 3.DFBETAS判定原則: 對於中、小規模的資集而言,當 1 DFBETAS ;或者是,大規模資集而言, n DFBETAS 2 ,則可視為群值具有影響。