1、Microsoft SQL Server 2005 Data Mining 演算法 - Regression,謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會 理事長,stat1001mails.fju.edu.tw WWW.CDMS.ORG.TW,何謂迴歸?,某公司業務部經理想要了解該公司影響銷售業績(y)之主要因素並希望能建立一預測模式。 案子交由市調部門做市場調查,發現有許多似乎都是很主要之變項因素(例如:廣告費、交際費、銷售員佣金等)。如果該業務經理只想找出一個或數個重要的相關之變項因素(X1,X2,Xp),如何尋找出?並如何建立預測模式?,迴歸分析,迴歸分析 建立變數關係的數學方
2、程式之統計程序 是將研究的變數區分為因變數與自變數,並建立因變數為自變數之函數模型 主要目的是用來解釋資料過去的現象及由自變數來預測因變數未來可能產生之數值。 自變數(Independent variable) 由數學方程式預測的變數。 因變數(Dependent variable) 據以預測因變數的值之變數。,迴歸分析,簡單線性迴歸(Simple Linear Regression) 僅有一自變數與一因變數,且其關係大致上可用一直線表示。 複迴歸(Multiple Regression) 兩個以上自變數的迴歸。 多變量迴歸(Multi-Variable Regression) 用多個自變項預
3、測數個因變數,建立之迴歸關係。,相關分析,不以數學方程式描述自變數與因變數的關係,而是在於判定其線性關聯的程度,並提供相關性的測度。不可藉迴歸或相關分析建立因果關係,相關分析,是利用來衡量兩個隨機變數之間”直線關係”的方向與強弱程度 。 在某些狀況下,決策制定者對二變數之關係的方程式的關切,可能不如其對二變數之關係程度的關切。在這種情形下,我們可以使用相關分析來決定二變數之間關係的強度。,相關分析,相關係數(correlation coefficient) : 表示兩隨機變數變動方向與程度大小稱為相關係數。 相關係數的值恆介於-1與+1之間。 完全正向線性相關 :相關係數+1 完全負向線性相關
4、 :相關係數-1 無線性關係 :相關係數的值非常接近零,相關係數,皮爾森積矩相關係數(Pearson Product Moment correlation coefficient)樣本資料 其中=樣本相關係數=樣本共變異數=X的樣本標準差=Y的樣本標準差替代公式,迴歸分析結果決定樣本相關係數,假設最小平方估計迴歸方程式為 ,則可利用下述二公式之一計算樣本相關係數:其中=估計迴歸方程式的斜率=X的樣本標準差=Y的樣本標準差,顯著性檢定,樣本相關係數是母體相關係數的點估計式,以 代表母體相關係數,則可進行下述的假設檢定:以檢定X與Y之間的線性關係之顯著性可證明檢定上述假設與檢定迴歸方程式的斜率之
5、顯著性為相同的。統計結果證明,若 為真則 的值為自由度為n-2的t分配。,最小平方法,最小平方法(least squares method) :提供描述自變數與因變數關係的最佳近似之直線。估計迴歸線(estimated regression line) 或估計迴歸方程式(estimated regression equation) :最小平方法建立的直線方程式。,估計迴歸方程式,=該直線的 y 截距=該直線的斜率=因變數的估計值,最小平方準則,對任一特定的自變數值而言,其在估計迴歸線上的對應值表示為最小平方準則=第 個觀察之因變數觀察值 =第 個觀察之因變數估計值,高斯馬可夫定理,最小平方估計
6、是b0 與 b1分別為迴歸係數0與1 的最小變異不偏估計式。 (Best Linear Unbiased Estimator,即為所謂的 BLUE),估計迴歸方程式,估計迴歸方程式的斜率與 y 截距=第i個觀察之自變數值=第i個觀察之因變數值=自變數的平均值=因變數的平均值=總觀察個數,判定係數,第i個殘差(residual):與 之間的差代表以 估計 所產生的誤差;第i個觀察值之差為誤差平方和(SSE):最小平方法中所處理的平方和,常被稱為誤差平方和或殘差平方和 (error sum of squares)總平方和 (SST):與平均數有關的平方和 (total sum of squares
7、)迴歸平方和(SSR) :為度量估計迴歸線上的預測值 與 的差異,判定係數,SST、SSR與SSE的關係 SST=SSR+SSE 其中SST=總平方和SSR=迴歸平方和SSE=誤差平方和判定係數(coefficient of determination): 假如我們使用SSR/SST評估迴歸關係的適合度,也就是代表迴歸方程的解釋能力,則此度量值將介於0與1之間 ,其值愈接近1,表示適合度愈佳。記做 。=迴歸所能說明的平方和/總平方和,判定係數,計算的效率補充說明 在建立最小平方估計迴歸方程式與計算判定係數時,並未做任何機率假設或統計推論。無法僅依 來判斷X與Y之間的關係是否為統計顯著。若要下這
8、類結論,必須考慮到樣本大小與最小平方估計式的近似抽樣分配之性質。 在實務上,對社會科學之資料而言,即使 低如0.25,通常可視為有用的。對物理與醫技科學而言,經常發現高於0.60的 值;,有時候更能見到 值高於0.90。,迴歸模型與前提假設,確定模型(deterministic model):只要給定自變數的值,就可以準確地決定因變數的值。 機率模型(probabilistic model) :無法保證各個x值對應於單一的y值,假設下述的機率模型稱為迴歸模型(regression model)可表示出此二變數間的真實關係我們稱 ( 截距)與 (斜率)為此模型的參數(parameter)。,迴歸
9、模型 其中=直線的 的 截距=直線 的斜率=實際的y值與直線 之間的誤差或離差,迴歸模型的誤差項,在迴歸模型 中,有關誤差項 的假設 誤差項 為一隨機變數,其平均數或期望值為0,也就是 。由於 與 均為常數,E( )= 與E( )= 因此對一已知的x值而言,Y的期望值為 式稱為迴歸方程式(regression equation)。 對所有x值而言, 的變異數均為 。 對所有x值而言,Y的變異數均等於 。 的值相互獨立。 誤差項 為一常態分配隨機變數。,迴歸方程式與估計迴歸方程式之關係,由於迴歸方程式為 ,迴歸方程式的最佳估計值即為估計迴歸方程式 ,所以為 的 估計值。,顯著性檢定,我們看到如何
10、以判定係數( )衡量估計迴歸線的適合度。 愈大代 表適合度愈高。然而,卻無法由 值判斷一迴歸關係是否為統計顯 著。我們將介紹如何進行顯著性檢定,以判斷迴歸關係是否存在。 的估計值SSE為真實觀察值對估計迴歸方程式的變異度量。由於 ,SSE可寫成: SSE的自由度為n-2(由於計算SSE時,必須估計2個參數 與 ),顯著性檢定,均方為平方和除以自由度。因此,誤差均方(亦稱為均方誤差)為 SSE除以其自由度n-2。均方誤差MSE為 的不偏估計值。由於MSE 是 的估計值,亦記為 。 以 的平方根估計 。 值稱為估計值的標準誤(standard error of the estimate)。,均方誤
11、差( 的估計值),估計值的標準誤, 檢定我們在前面假設迴歸方程式為 。如果這種關係確實存在,則 不可能等於0。因此,欲檢定二變數間的顯著關係時,利用下述假設:,t檢定,進行 檢定之前,我們必須考慮 的最小平方估計式 b1 的性質。 b1的抽樣分配 期望值 標準差 分配形式為“常態”,F檢定, 檢定 當自變數多於一個時,僅可利用 檢定檢定因變數與一組自變數間 的顯著關係。要檢定的假設與以前一樣:已知MSE為 的一個估計值。如果虛無假設 為真,則迴歸均方或均方迴歸(mean square regression,記為MSR),是 的另一 個獨立估計值。均方是平方和除以其自由度,MSR的計算如右:SS
12、R的自由度等於自變數個數,上式可寫為 我們只考慮含單一自變數的模型,故MSR=SSR/1=SSR。,MSR/MSE的抽樣分配服從分子自由度為1而分母自由度為n-2的F分配。 F統計量為:有關統計顯著性的警訊 拒絕 並不代表X與Y之間必定為線性。 補充說明 1.若沒有誤差項的前提假定,本節統計顯著性檢定無法成立。 2.不要將統計顯著性與實務顯著性混為一談。當樣本數很大時,很小的 值也可能得到統計顯著的結果。 3.在簡單線性迴歸中,F檢定與t檢定會產生相同結果的理由是: 。,F統計量,信賴區間預測值(C.I):特定的X值之下,Y的平均值之區間預測 值是用以估計母數可能所在的範圍。例如:在學生人數為
13、10,000的學校附近之所有餐廳的期望年營業額之信賴區間預測值 預測區間估計值 (P.I):預測對應於某X值之個別Y值是用以估計變數可能所在的範圍,範圍 較大。例如:在學生人數為10,000的托伯特學院附近的某餐廳其年營業額之預測區間估計值,估計與預測,Y的平均值之信賴區間預測值,的估計變異數,的標準差,信賴區間預測值,的信賴區間預測值為 其中信賴係數為 ,而t值的自由度為n-2。 當 時, 的估計標準差為最小。 式子變為因此,當 為自變數的平均數時,可得 的最佳預測值。,信賴區間預測值,個別Y值之預測區間估計值 先求出當 時,以 做為特定y值的估計值所產生之變異數。的變異數估計值(記為 )為
14、:1. :個別Y值對平均值 的變異數之估計值。 2. :以 估計 所產生的變異數之估計值。,預測區間估計值,個別Y值的標準差估計值為,的預測區間估計值 其中信賴係數為 而t值的自由度為n-2。,預測區間估計值,殘差:為因變數的觀察值 與由迴歸方程式預測而得的 值之差 第 個觀察值的殘差 是以估計迴歸方程式預測值 所產生的誤差之估計值。 殘差分析可用來檢定迴歸分析的前提假定是否成立。在證實迴歸模型的前提假定是否成立時,需考慮兩個關鍵問題 1.有關誤差項 的四個前提假定是否滿足? 2.我們所假定的模型形式是否合適?,殘差分析:檢定模型假設,殘差 是 的估計值;迴歸分析中如有個n觀察值,就會有n個殘
15、差。殘差圖可幫助我們判斷有關 的前提假定是否滿足。三種最常見的殘差圖為: 1.殘差對自變數X的圖。 2.殘差對因變數的預測值 的圖。 3.將殘差化為z分數(即減去其平均值,然後除以標準差),再畫出標準化殘差的圖。,殘差,對X的殘差圖 將x放在橫軸,而將殘差放在縱軸。並對各觀察值,畫出殘差;橫 坐標為 ,縱坐標為 。 對所有x值而言,若 的變異數均相等,殘差圖將會呈水平帶狀。對 的殘差圖 將預測值放在橫軸,將各殘差值繪於對應的 值上。簡單線性迴歸中,對X的殘差圖與對 的殘差圖提供相同的資訊。 多元迴歸模型(多於一個自變數)中,較常使用對 的殘差圖。,對X和Y的殘差圖,電腦套裝軟體提供的殘差圖多使
16、用標準化殘差。 隨機變數的標準化是減去其平均值,然後再除以其標準差。在最小平方法之下,殘差的平均值等於零。因此,僅將各殘差除以其標準差,即可得到標準化殘差。 第 個殘差的標準差與 及對應的自變數之值有關。 第 個殘差的標準差 其中 =第 個殘差的標準差 ; 算出各殘差的標準差後,將各殘差除以其對應的標準差,而求得標準化殘差。,標準化殘差,常態分數(normal score):由平均值為0而標準差為1的常態機率分配中隨機選取10個值之實驗。若不斷重覆此實驗,並將各樣本中的10個值由小至大排序。代表重覆抽樣中的最小觀察值之隨機變數即稱第一順序統計量(first-order statistic)。統
17、計學家已證出,當樣本大小為10時,第一順序統計量的期望值稱為常態分數(normal score)大約為-1.55。如果一資料集包含n個觀察值,則有n個順序統計量,因此有n個常態分數。,常態機率圖,偵測異常值 異常值是值得懷疑的觀察值,所以需小心驗證 。 可以藉助標準化殘差來認定異常值。若對應一特定x的y值異常的大或小,所對應之標準化殘差的絕對值將很大。 在決定如何處理異常值時,我們應先驗證其是否為有效的觀察值。,殘差分析:異常值與具影響力的觀察值,在迴歸分析中,有時候一個以上的觀察值對所得到的結果有很強的影響力。 當僅有一自變數時,由散佈圖可看出具影響力的觀察值。 高槓桿效率點(high le
18、verage point) :具極端的自變數值之觀察值。一觀察值的槓桿效率由自變數值與其平均值相距多遠而定。,第 組觀察值的槓桿效率,具影響力的觀察值偵測,複迴歸,用多個自變預測一個依變項,建立之迴歸關係稱之為複迴歸(multiple regression)。 複迴歸線性模式(multiple linear regression model)模型的公式是y=1x1+2x2+pxp,在複迴歸裡,除了符號較複雜之外,基本概念和簡單迴歸完全相同。 例如在簡單迴歸中是常態分布,在複迴歸中只是將之改成通通都是常態分布。 SSE在簡單迴歸中是 分布(乘上 ),這在複迴歸裡也是對的,唯一的不同點是自由度要用
19、 。而SSE和獨立,也是對的。因此,操作步驟,設定演算法參數,線性迴歸模型,變數間網路相依圖,散佈圖,產生預測值,實例分析一,案例說明,某醫院醫生欲探討成人血液中的膽固醇是否受到體重、血壓及年齡的影響 調查10位20至30歲成人男性,分析資料,選擇線性迴歸,選擇資料來源,選擇分析資料表,選擇變數,確認變數型態,輸出結果,散佈圖及預測值,實例分析二,案例說明,某量販業者欲了解來店顧客人數是否受到廣告促銷費用、店面面積以及量飯店所在位置的影響(0表示市區、1表示郊區),分析資料,選擇線性迴歸,選擇資料來源,選擇資料表,選擇變數,確認變數型態,輸出結果,散佈圖及預測值,實例分析三,案例說明,有一零售商想知道廣告費用是否會影響其銷售收入 觀察15個月份的月資料,進一步加以分析。,分析資料,選擇線性迴歸,選擇資料來源,選擇資料表,選擇變數,確認變數型態,輸出結果,散佈圖及預測值,Your issue. Our solution.,問題與討論,WWW.CDMS.ORG.TW Stat1001mails.fju.edu.tw,