1、測驗的信度,林陳涌 國立台灣師範大學 生物學系,信度.,信度所關心的是測驗分數的一致性或穩定性。 一個具有良好信度的測驗,使用在不同的主試者 評分者 時間 情境或使用類似的問題,其所得的分數應該接近相同或一致。 一般而言分數愈一致,受誤差的影響愈小。所以信度主要在說明測驗分數中測量誤差所佔的成分。,效度.,測驗有種種不同的目的, 這些目的是否能達到需視測驗效度高低而定。 測驗的效度高,則測驗能實現所欲測量的目的。如果效度低,不僅無法達成目標,甚至會提供不正確的資料而作成錯誤的決定。,C C C,B,D,B,B,D,D,A A A,信度(Reliability):測驗是否精準(Precision
2、)效度(Validity) :測驗是否正確(Accuracy), 信度、效度的意義,C C C,B,D,B,B,D,D,A A A,信度(Reliability):測驗是否精準(Precision)效度(Validity) :測驗是否正確(Accuracy),A:精準又正確(Reliable & Valid ),B:不精準但正確(Unreliable but Valid ),C: 精準但不正確(Reliable but Invalid ),D:不精準也不正確(Unreliable & Invalid ), 信度、效度的意義,信度的意義,測量的一致性測量的誤差,測量的一致性,相同的個人在不同的時
3、間,以相同的測驗測量,或以複本測驗測量,或在不同的情境下測量,所得結果的一致性。兩次測驗的結果相當一致,表示測驗分數具有穩定性 可靠性 可預測性,測量的誤差,測驗或測驗的分數,反應出真實量數的程度或沒有誤差的程度。信度是在估計測量的誤差有多少,以及有多少比率是由測量誤差所造成的。如果測驗分數中包含很多的誤差成分,信度就低;如果測驗分數中包含很少的誤差成分,信度就高。,信度的特性,一般而言,心理與教育測驗的信度比自然科學為低。 自然科學的特徵通常可以直接測量,但心教測驗只能間接測量而推論之。 自然科學的工具精確性相當高。 自然科學測量的特徵相當穩定,不像心理特徵變化很大。,信度的特性,信度不是一
4、種普遍的特質,所以,測驗分數不可能在任何情境下都是可靠的或一致的。 信度會因情境(如受測族群)改變而變。某測驗的信度已經建立了。,信度的特性,本質上,信度是一種統計的概念,採用邏輯的分析,無法提供有效的證據。 確定信度的兩個主要方法: 同一個測驗對單一受試者測很多次 分析受試者內在的變異,這個差異通常以測量標準誤(standard error of measurement)表示。 這個方法不可行。 同一個測驗對同一群受試者測兩次 根據他們的分數在團體中的相對位置,分析受試者相互間的變異量,以相關係數來表示。 現在常用的方法。,信度的特性,測驗的信度愈高愈好。但是沒有測驗是完全可靠的,所有測驗都
5、有某些程度的不可靠,因為測量誤差是無法避免的。因此信度要多高才可使用需是使用的目的和情況而定。,信度的原理-真實分數與測量誤差,X = T + E X:實得分數 T:真實分數 E:誤差分數 真實分數:普遍性分數,無法正確量到,需在多次重試求取平均數做為真實分數。 誤差分數及測量誤差,可正可負可零,理論上多次重試的結果誤差平均數為零。,信度的原理-真實分數與測量誤差,測量誤差 非系統誤差 隨機的 沒有規則 不可預測的 稱為隨機誤差,愈大則信度愈低 系統誤差 固定一致的影響測驗 稱為常誤或偏誤 通常不影響信度,但會影響效度。,信度的原理-真實分數與信度,X = T + E x =t +e x 實得
6、分數總變異量 t 真實分數的變異量 e 測量誤差的變異量,信度的原理-真實分數與信度,實得分數的總變異量是由真實分數所造成的變異比率和誤差分數所造成的變異比率之和。 x /x =t /x +e /x 信度rxx為真實分數的變異量與實得分數的變異量之比率。 rxx =t /x 或 rxx =x /x -e /x = 1 -e /x ,估計信度的方法,重測方法 複本方法 內部一致性方法 評分者方法每種方法都在說明測量誤差的不同來源,重測方法,採用同一個測驗在不同時間,重複測量相同的一群受試者兩次,根據這兩次分數求得的相關,稱為重測信度係數。此係數可以表明測驗結果經過一段期間後的穩定性,故又稱穩定係
7、數。,重測方法,重測間隔時間 視工具的用途來決定間隔時間缺點 易受練習與記憶影響 題目的性質因重測而改變,如推理變記憶 無法複製相同情境,複本方法,複本測驗 題目不同但內容相似 指兩份測驗在內容 型式 題數 難度 指導說明 時間限制 與例題等方面,必須類似或相等。通常是根據相同的設計說明表分別獨立編制而成。 兩個複本測驗實施於一群相同的受試者,依據所測量到的分數求相關,即複本信度。 此信度係數可以說明兩個複本測量相同行為或內容的程度。信度愈高,試題樣本預可靠,愈能代表所預測量之範圍。,實施複本測驗的方法,同一時間連續實施 反應工具內容所造成的誤差,無法反應受試者本身所造成的誤差,此種複本信度又
8、稱等值係數。 間隔一段時間實施 可反應工具內容所造成的誤差與受試者本身所造成的誤差,此種複本信度又稱穩定與等值係數。,複本方法的缺點,複本測驗編製不易 費時 成本高還是有受練習的影響,內部一致性方法,較簡單的方式,一次OK折半方法 庫李方法 Cronbach 只說明概念,公式以後用到時再自己查。 現在的統計軟體很方便。,折半方法內部一致性方法,理論上與同時實施複本測驗一樣,都可以說明測驗試題取樣的適當程度。 折半方法是憑一次測驗結果,求兩半分數的相關,所以其信度係數有時被稱為內部一致性係數。 如何折半 隨機 奇偶數,折半方法內部一致性方法,因折半的關係,實際上只是半個測驗的信度,所以當其他條件
9、相同時,題數愈多,可靠信譽高。 折半信度愈高表示兩半測驗的內容愈一致,即內容取樣愈適當。與同時實施複本信度一樣,只反應取樣內容的誤差,無法反應個人因時間取樣的誤差。,庫李方法內部一致性方法,依據受試者對所有題目的反應,分析題目間的一致性,以確定測驗中的題目是否測量相同的特質。 題目一致性受到兩種誤差的影響 內容取樣 取樣內容的異質性 取樣內容同質性愈高,題目的一致性也愈高。,庫李方法內部一致性方法,對測驗題目的基本假定 題目的計分屬於非對即錯 題目沒有明顯受到速度的影響 題目是同質性的庫李20與21,Cronbach 內部一致性方法,多重計分的測驗,如李克氏量表(Likert scale),無
10、法使用庫李信度,可採用Cronbach 。 庫李方法與Cronbach 的限制 不適用速度測驗 無法反應時間取樣-無法做穩度係數,評分者方法,採用不同評分者評閱測驗卷,而估計評分的一致性,稱為評分者信度。適合主觀題目的測驗。 兩個評分員 等級分數 Spearman Rank Correlation 連續分數 Pearson 積差相關 多位評分員 Kendall coefficient of Concordance,信度類型與測量誤差,P. 67 前面幾種信度的整理表,標準參照測驗的信度,理論上,信度係數受到團體的變異性所影響,團體的個別差異愈大,測驗的信度係數愈高。 標準參照測驗只在區分精熟與
11、非精熟,故變異性不會存在,因此傳統的方法就不適用。百分比一致性 柯恆的係數,百分比一致性,甲乙兩複本測驗 測驗甲精熟 非精熟精熟 30 a 3 b 33 a+b 測驗乙 非精熟 2 c 15 d 17 c+d32 a+c 18 b+d 50 N 根據在兩個測驗均達到精熟人數的百分比與均未達到精熟人數的百分比,求得百分比一致性 PA PA=a/N + d/N=30/50 + 15/50 = 45/50= 0.90,柯恆的係數,影響百分比一致性的大小,主要有兩個來源 測驗的品質 團體的成分 柯恆的係數目的要從PA中除去團體成分的機會影響。 K=(PA-PC)/(1-PC) PC = (a+b)/N
12、* (a+c)/N + (c+d)/N* (b+d)/N 依前例 PC 0.54K= 0.78,柯恆的係數,PC 0.54 的意義 在這團體中,依據團體組成性質的影響,可預期有54%的一致性分數。 K= 0.78的意義 除了團體組成所預期的影響外,測驗可貢獻78%的一致性分類。強調全體一致性的分類,而不顧一致性的過程,採用百分比一致性。 只關心測量程序對一致性分類的貢獻程度,宜採用K係數。,影響信度的因素,測驗的長度 測驗愈長,內容愈具代表性,信度愈高團體的變異量 團體的變異性愈大,信度愈高 rxx = 1 -e /x ,信度,題數試題數與信度的關係,影響信度的因素,測驗的難度 太難或太簡單均
13、會降低信度 測驗的客觀性 愈客觀,信度愈高 信度的估計方法 不同方法,其所處理的誤差來源不同,所以信度亦會不同,1007550250,1 2 3,分數,評量次數,難度太小,難度太大,適當難度,平均數(M):85 21 60 標準差() :3.9 4.2 12.4 信度(KR21):0.43 0.46 0.90,分數之分散度和難度與信度之間的關係,理想的信度係數,信度要多高 團體用可低一些 個人用應較高 要哪種信度 穩定度 人格測驗 內部一致 成就測驗,測量標準誤,測量標準誤與信度係數一樣,都是用來表示測驗信度的方法。信度係數較適合於比較不同測驗的信度;而測量標準誤則較適合於解釋個人的分數。,測
14、量標準誤的意義,一個人接受某一測驗 N 次,所得的分數應是以其真實分數為中心而構成的常態分配。這個分配的標準差,就是測量標準誤。 SEmeas.=Sx 根號(1- rxx) SEmeas. 測量標準誤 Sx 測驗的標準差 rxx 測驗的信度係數,測量標準誤與信度的關係,SEmeas.=Sx 根號(1- rxx) 當信度等於1時,測量標準誤為0;當信度等於0時,測量標準誤為1 信度愈高,測量標準誤愈低;信度愈低,測量標準誤愈高,測量標準誤的應用,解釋個人測驗分數的意義-可信賴範圍 某生智力測驗得到130,此測驗信度為0.96,標準差為15,該生的真實分數落在哪個可信賴範圍 SEmeas.=Sx
15、根號(1- rxx)=3 依據常態分配, 落在127-133(上下一個標準差)的機率為68.26% 落在124-136(上下兩個標準差)的機率為95.44% 落在121-139(上下三個標準差)的機率為99.72%,測量標準誤的應用,比較不同測驗分數的差異差異標準誤SEdiff=根號(SEmeas.x+ SEmeas.y)SEdiff=S根號(2- rxx - ryy),比較不同測驗分數的差異,某生語言推理得54分;數學得62,分數相差8。兩測驗是以M=50,S=10的T分數表示。語言推理測驗的信度為0.85;數學測驗的信度為0.90 差異標準誤 SEdiff=S根號(2- rxx - ryy)=5 以95%的信賴水準必須差異大於1.96*5=9.8 以99%的信賴水準必須差異大於2.58*5=13,THE END!,