1、測量的效度信度,蔡佳泓 政大選舉研究中心 副研究員,課程大綱,測量 量表,測量,測量(measurement)指的是將數字指定到某個研究對象,使其具有某種數字化的特質。 一般將測量的程度分為:名目、順序、等距、等比等四種測量程度。,名目尺度,名目尺度的內涵是標示分析對象的種類 。 性別(男或女或?)、職業(經理、教師、農民等)、省籍(閩南、客家、大陸各省市、越南?)、宗教(佛教、民間信仰、伊斯蘭教.)、居住地 ,順序尺度,順序尺度提供的資訊是由高而低的排序,顯示研究對象的特質為高、中、低,強或弱、冷或熱等程度 。 教育程度、社會階層等,等距尺度,等距尺度假定每個刻度之間的距離相等,所以可以做各
2、種數學運算。 智力、溫度等,等比尺度,等比尺度在自然科學中較常見,只是比等距尺度多了絕對的零。 重量、長度、時間、面積等,信度效度,一個好的問項所引出來的答案,要能夠可靠又有效地測量我們所要描述的現象。在測量的意義上:信度是用來衡量答案的一致程度:當我們所要描述的狀態一致的時候,答案也是一致的。而效度是用在評量我們所得到的真實價值,彼此契合到什麼地步。,信度,測量到的結果不管任何時間都一致, 不會有誤差。 測量誤差可用E=X-T表示,X是觀察到的特質,T是真實特質。 信度高的測量, 才有信心用來預測未來。,信度的例子,儀器的信度:視力、 聽力、 體重、心跳速度等。 測驗的信度:考試、 智力測驗
3、。 問卷的信度:受訪者的回答, 包括態度、 行為、 事實等等。,信度的原理,從測量誤差的公式可得X=E+T。 從變異量的公式可得Sx2= ST2 +SE2 而真實特質的變異量佔觀察特質的變異量比率ST2 / Sx2稱為信度, 通常以rho表示。,信度的估計,以上的公式有兩個未知數E 、 T, 只有一個已知數X。 假設X是平行測驗所得的值, 統計學家發現, X跟X的相關係數= ST2 / Sx2,剛好就是rhox 。,平行測驗圖示,平行測驗原理,同一團體但不同時間所得的分數 不同團體但同一時間所得的分數 所得的分數或回答做相關分析得到的相關係數,可以代表真實分數所佔的比率,即信度。 最高為1 。
4、 相關係數:(x-x_bar)(y-y_bar)/sqrt(x-x_bar) 2) sqrt(y-y_bar)2),折半信度(1),將一份問卷或測驗分為兩部份 計算全部問卷或測驗的信度(Spearman-Brown): 2rhoxx/1+ rhoxx 假設折半的相關係數為0.75, 那麼全部的信度為2*.75/1+.75=.857,折半信度(2),假設有類似的題目加入原來的量表,則可用以下公式計算信度n*rhoxx/1+(n-1) rhoxx n是題目加長或減短倍數 比方說有一個10題的量表, 拆成5題5題, 計算其信度得到0.2,如果再設計一個有20題的量表, 那麼跟這個量表平行的量表的信度
5、將是4*0.2/1+(4-1)*0.2=0.5,內在信度,Cronbachs alpha: N*(mean of rho)/1+ (N-1)*(mean of rho) 題目越多, 在rho相同的情況下, alpha越大,效度,測量能夠測到真正的特質, 即效度。 X=T+E。 E若一直為0就是有效度。 E若是不為0但是為一固定常數, 就是有信度。所以信度可以說是效度的必要條件。 有信度不一定有效度, 有效度則一定有信度。,效度的例子,溫度計-可以用來測溫度,但是不會有人拿來測溼度。 倍數高的望遠鏡可以幫我們測量行星之間的距離。 用X光或超音波測量骨密度。 用巴式量表測量身體功能 用GRE測量留
6、學生的智力,效度,表面效度(face validity) 內容效度(content validity) 預測效度(predictive validity) 建構效度(construct validity),表面效度,就測量的表面來決定是否有效度。 例如: 用尺測量身高腰圍等, 用水測量大象的重量,用IQ量表測量人的智商等。,內容效度,單獨的測量可能具有表面效度,而多重測量可能具有內容效度,例如測量對於人性的看法,可能問好幾個問題(多數人可以信任、多數人的看法是對的、人與人之間常會有衝突等),預測或實用效度,用另一個獨立且有效的測量來評估測量的效度。 以實證方法評估 例如: 學生托福成績應該與其
7、在國外語言表達能力有關; 國外語言表達能力的測量有無效度可以用托福成績來確定。,建構效度,與預測效度類似, 但是更注重測量與測量之間的理論關係。 例如: 人格特質與行為有關; 家庭教育又與人格特質有關; 家庭社會地位可能與家庭教育有關等等。 檢驗建構:效度相關研究 ,因素分析,實驗研究等,內在與外在效度,內在效度指在特定研究中測量是否適當?例如研究政黨,所有的政黨是否符合同樣的定義(參與選舉提名候選人等) ,並且它們不同於社會運動或利益團體等。 外在效度指不同研究可應用同一測量,即不因時間與地點而改變,何謂量表,一個量表所代表的概念,其特質表現在每個問題上面。也就是說,個別問題是這個概念的果而
8、不是因 一個量表代表一個概念或特質,我們期望透過個別的問題,能夠發現問題背後所共通的意涵。,量表的結構,Thurstone Scaling,假設在沒有任何尺度的情況下, 以相對判斷的方法了解受訪者的偏好,Thurstone Scaling,我相信教會是美國最偉大的機構 我相信宗教, 但我很少去教會我想教會有礙信仰因為它依賴各種迷信及神話,Thurstone Scaling,選擇題目條件一: 高低中位數分布於各題, 表示有代表性 選擇題目條件二: 離散程度小,Guttman Scaling,Guttman Scaling希望從回答中得到更多資訊,除了受訪者同意個別問題的數目之外,還可以看出同意的
9、形態是否符合預期。,Guttman Scaling (Rosenberg Self-Esteem Scale),1. 我覺得我有一些好的人格特質 2. 我希望我能夠得到更多人的尊敬 3. 我覺得我是一個有價值的人,至少跟 別人比起來我不輸人 4. 我覺得我並沒有太多可以值得驕傲的 5. 我對自己採取正面積極的態度,Guttman Scaling,Guttman Scaling,除非有很好的理論, 否則設計困難度高 必須應用其他分析工具做為指標: CR=1.0-(# of errors)/total responses=1.0-(# of errors)/(# of items)*(# of r
10、espondents),Likert Scaling,通常我們最常見的是Likert Scaling,分析方法是給每個問題的回答一個分數,累計之後便是受訪者的態度。,Likert Scaling,好的法律與制度比好的領袖更重要。 無論一個人的政治觀點為何,都可以公開發表。 政府自然會為人民解決困難,我們人民不要發表太多的意見。 一個社會如果有許多不同的團體,就會影響我們社會的安定與和諧。,Likert Scaling,相關係數計算每個回答者分數之間的相關性以去掉不相關的問題 應用信度的測量: 折半信度, 將問題分為兩部份, 然後分別計算問題之間的相關性,最後再計算全部的相關性, 並考量兩半相關性之間的相關性. Cronbachs Alpha=N(rho)/1+ (rho)(N-1),