1、九年一貫課程綜合領域之多元評量吳佳晉壹、前言隨著時代演進,每一個時期的社會型態不同,反映在教育上,課程內容、目標亦不同,學習評量根據課程目標實施,實施方式則跟隨教育改革的腳步調整。Guba 和 Lincoln (1989)將評量的演進分為四階段:第一代的評量取向為測量 (measurement) ,評量者的角色屬技術性的,必須對各種測驗工具非常嫻熟,甚至編製適當的測驗工具,此時測驗成績是取決學生學習成敗的指標。第二代的評量取向為描述(description),評量者的角色實為一描述者,強調描述課程目標和學習者在每一個目標學習的優缺情形,以回饋於課程的改革。第三代的評量取向為判斷(judgmen
2、t),評量者的角色如同裁判,依照學生程度決定應達成的標準,並且評定是否達到既定標準。第四代的評量取向則是一種變通方式(alternative approach)-建構回應評量(responsive constructivist evaluation) ,學習者才是整個學習歷程的主角,評量者作為一個主觀的夥伴,而評量本身不是目的,而是一個獲得學習情形相關資料的手段,這些資料包括質化與量化的,以了解學習者所學到的事實和價值,並反映出學習的背景脈絡。現今教育領域的評量即處於第四代評量,趨向於採取異於傳統的變通方式,基於此一趨勢,現今教學應以各種彈性、動態的評量方式為主。貳、 評量的基本概念評量基本概
3、念的釐清,有助於我們掌握評量的要領,俾使進行評量時,能夠更加靈活而有效率,且不背離基本的原理原則。一、評量的意義評量相關字彙 assessment、 evaluation、 measurement,其中 evaluation多譯為 評鑑 , measurement則譯為測量 ,前者為教育行政與課程專家所慣用,強調鑑定、鑑別及鑑賞的功能(邱廣治,民75) ,後者則屬系統化收集資料,將其量化或排列等第(Payne, 1992) 。Nitko(1996)亦清楚地指出評量(assessment) 、評鑑和測量的不同,測量是指對一個人的某一屬性或特徵指派一個數字的過程,以便表達此人擁有某一屬性的程度;評
4、鑑則是對成品或行為表現作價值判斷的過程,通常必須以測量或測驗的結果作依據,並整合其他相關的客觀資料來作決定;而評量則是指蒐集資料以用於決定學生達成學習目標之程度的過程。晚近學者們將evaluation提昇至 assess- ment,強調評量時應考慮各種相關的整體情境,從各種可行的途徑,蒐集全面性、多元化的資料,再從各種角度和不同觀點加以比較分析與綜合研判,進行整合性的詮釋,獲致充分的了解(簡茂發,民88) 。 Evans等人(1986)認為評量是包含學生、家長和學校人員的互動歷程。它是一種探究的方法,亦是持續獲得資料的歷程,已變能瞭解學生及其環境的優缺點和未來展望。美國全國教育學會(1990
5、)定義評量為獲取資料並運用於學生、課程和教育政策各方面決策的歷程(引自Nikto, 1996) 。二、評量的目的評量在教學歷程的每一階段扮演指導的角色,評量的結果回饋於教學的所有環節,作為修正的依據,評量的功能可歸納為:(一)教學功能:1.診斷學生學習困難與潛能。2.增強學生學習動機和教師的教學動機。3.瞭解教師教學效率,作為調整課程和改進教材教 法參考。(二)行政功能: 1.提供學校行政當局作為課程評鑑和教學改進參考。2.作為選擇、分類學生之依據。(三)輔導功能:1.學生職業/學術傾向之預測、定向和安置。2.幫助學生發展正確的自我觀念,瞭解自己。3.記錄並報導學生成就情形。4.測量個別差異以
6、利輔導。三、評量的類型評量依照分類角度不同有多種類型, 國民中學課程標準所規定的評量實施要點是從學習領域劃分為認知領域、情意領域和技能領域的評量。認知領域評量著重知識、理解、應用、分析、綜合和評鑑等由低至高智識的和解決問題的能力;情意領域的評量著重於學生個體與社會二者關係的建立,多屬愛好、態度、價值及信仰等;技能領域評量在評量所有心智與四肢協調後所表現出來的行為(李大偉,民84) 。簡茂發(民85)認為從評量的時機和性能而言,教學評量可分為形成性評量 、 總結性評量和診斷性評量 。診斷性評量決定學生的成熟度、預備狀態、起點行為、與學習有關的特質,予以分組安置,診斷學習困難的原因;形成性評量提供
7、學生進步的回饋資料,指出教學單元結構上的缺陷,以便實施補救教學;總結性評量在某一教學單元、課程或學期之末,就學生們的學習成就進行評量,決定其成績的等第及格與否。Gronlund(1998)認為評量方法雖然很多,但可歸結為四種類型,即選擇反應(selected response)如複選、是非和配合題等;填充反應(supply response)如填空、簡答題等;結構性實作(restricted performance)指高度結構化的任務,如選擇實驗室設備、測量溼度或從電腦中叫出資料等;延伸性實作(extended performance)需要較多理解和判斷,如進行實驗、使用電腦解決問題等。越偏重
8、實作、且為延伸性(非結構性)任務的評量,其能切合日常真實生活情境的程度越高,工作的複雜性也越高,需要教師付出較多時間來蒐集學生學習情形的相關訊息。對於非結構性的任務,學生根據其興趣、思考模式和學習經驗不同,所建構出的解決方案或成品也不同,所以難以避免教師主觀地判斷各種解答的優劣,因此教師必須具備更專業的評量知識、善用各種評量方式。測驗 實作評量選擇反應 填充反應 結構性實作 延伸性實作低 高低 高低 高低 高資料來源:Gronlund, 1998, p.15.任務的真實性任務的複雜性評量所需時間評分的主觀判斷程度參、學習評量的原則學習評量的一般原則,邱廣治(民75)認為評量的基本原則可歸納為下
9、列六點:(一)配合教學目標。(二)採用多種評量方式。(三)涵蓋整個教學歷程且具有持續性。(四)考慮學生身心成熟程度。(五)重視學生平時學習活動。(六)鼓勵師生共同參與評量,妥善運用評量結果。Stiggins(1994)指出評量的指導原則為:(一)教師應清晰思考,與學生有效地溝通。(二)教師應關注投入,應用評量結果改進教學。(三)學生是應用評量結果的關鍵人物。(四)應有清楚而正確的成就目標。(五)應有優質的評量方法以避免誤差。Blythe(1998)在其著作”The Teaching for Understanding Guide”中提出評量應能配合課程,經整理歸納出教師應掌握的評量原則為:(1
10、)評量應為持續的歷程,課程進行的當中隨時同步進行評量。 (2)應將學習應達到的標準清楚地確立,並且公開與學生討論,必要時依學生表現情況將標準加以修正。 (3)提供更多機會將評量結果回饋給學生,使其能改進學習表現。 (4)教師和學生都應參與評量學生學習的進步情形。Grounlund(1998)闡述評量的本質,他認為評量應與教學密切聯結,並且提出有效評量實施的指導原則為:(1)應確認課程目標,(2)使用多元評量方法, (3)與教學相聯結, (4)蒐集充分的學生行為樣本, (5)對每一名學生都要公平, (6)建立特定的評量效標,(7)將學習的優缺情形回饋給學生,和(8)兼顧質與量的評分方法程序。美國
11、國科會的分支單位傳播研究與評鑑處(Division of Research, Evaluation of Commucation)規劃多元方法評鑑手冊 。這個研究肇因於過去評量太過著重量化的方法,如此致使評量者漏失學習歷程中重要的訊息,所以許多資深的評量專家認為:最有效的評量應該是透多元方法來蒐集評量資料,兼採量化與質化的評量方式,而這本手冊規劃的目的,即在於引介更多質化的評量方法,並且將之與量化評量方法有效地結合(Frechtling & Sharp, 1997) 。可見兼顧量化與質化評量方法,是現今教育評量必須掌握的原則。英國科技教育學者Kimbell(1996)指出常模參照評量對科技教育
12、而言,既不可靠也沒有助益,因為常模參照不能清楚描述學生能夠做什麼,它充其量只是指出學生在團體中的位階。所以他強調科技教育的評量應採效標參照,其能提供機會給學生表現他們所知、所學和所能做的。他長期參與國家課程和評量制度的制定和改革,從1980年代早期中學普通證書考試 (General Certificate of Secondary Education- GSCE) ,到1986年開始發展的國定課程評量(National Curriculum Assessment) ,以迄於1985-91年間為英國科技教育課程設計與科技 (Design and Technology)研擬的表現單元評量(Asse
13、ssment of Performance Unit- APU)專案計畫,專精科技教育評量的理論與實務,他歸納科技教育近二十年來的演進趨勢如圖。早期學習評量是對學生的表現給予單一的判定等第(0-5) ,本質上偏向量化的指派分數;1986年代改變為從五個既定的敘述指標中選擇最適合者,評量結果的呈現雖為質化的文字敘述,但仍不脫等第的量化本質;至1990年代發展出24項個自獨立的敘述指標(statement) ,依不同的能力劃分項目,同一種能力依程度高低再加以細分,如此成為一套正式的學習評量效標以供參照,且可精細地描述學生學習的優缺點。由此觀之,英國現今科技教育的學習評量著重質化精細描述學生的學習情
14、形,且採取效標參照的評量方式。Farrell等人(1993)在英國倫敦大學科技教育研究中心進行科技教育評量相關的研究,研究結果出版的” Understanding 1972 1986 1990英國近二十年來評量精細化的演進構念資料來源: Kimbell, 1996, p.17.Assessment in Design and Technology”(Farrell, et al, 1993)一書中,也可以看出上述質化的評量取向非常受到重視,他們認為要真正評量學生的能力(capability) ,教師可以從學生蒐集資料後所擬的工作計畫單著手,進行深度的質化評量,大致可歸納為三個部分:(1)教師給
15、予詳細的評語,評析工作的優缺情形。 (2)分析並條列學生的學習歷程有哪些訊息、證據可用來決定其問題解決方案的優缺點。 (3)對照APU的24個敘述指標評定其能力水準。所以,評量結果呈現的不是量化的分數,而是詳細的質化文字評語和指標的代號,其實這些代號也可以看出學生習得的能力和程度為何。Aspinwall(1992)等人認為教育上的評量應該以系統的方法來管理,盡量使其科學化,即有系統地規劃出評量指標,再根據此一系列指標進行評量,如此較符合公平原則,也避免評量太過主觀。如廣泛的實作活動,可以將之劃分為許多較精細的步驟,這些步驟應達到何種程度,也就是將細部實作的品質加以描述,即成為實作的具體指標。他
16、們建議評量者將學習活動劃分為輸入、過程、輸出三個部分,來思考其在量化和質化的層面上應達成的水準為何。綜合以上國內外文獻所闡述的學習評量一般原則如下:1.學習評量應考慮學生身心成熟情形和學習經驗。2.學習評量內容應涵蓋認知、技能和情意三個學習領域。3.學習評量應涵蓋預備性、形成性和總結性評量。4.學習評量應對學生平時的學習表現亦加以記錄並評量。5.學習評量應由教師、同儕和學生自己共同參與。6.教學目標應充分與學生討論,並且使他們瞭解應達成的能力。7.學習評量應以活動為主蒐集評量所需的資料。8.學生學習的過程和成品都在學習評量的範圍內。9.學習評量應著重學生手腦並用的創作思考能力。10.學習評量的
17、結果應與學生討論使學生了解自己學習的優缺點。11.學習評量的結果應回饋於瞭解教學的優缺點並改進教學。12.學習評量應採效標參照評量。13.兼採多元、變通的學習評量方式。14.學習評量結果的呈現應兼顧量化與質化的報導,但著重質化的描述。肆、學習評量趨勢本文已提及現今評量處於第四代評量,趨向於採建構回應性的評量,也就是變通性的評量方式, Banks(1994)認為學習是心智與雙手交互作用的歷程在此歷程中內在心智的活動和外在的成品都很重要,科技學習雖植基於智識的理解,但絕不僅止於此,還包括實務的技能,亦即學習科技時是將心智形成的概念透過具體形式展現於外,才能檢視其是否有效。傳統評量方式所犯的謬誤,在
18、於它將此一歷程中內在思考和外在實作分割,我們必須認清能力有不同的向度,無論智識的、表達在外的能力,評量都需涵蓋且重視。紐約州政府教育局(1999)現正推動的MST科技教育課程,其中規劃的評量模式(assessment model) ,列舉MST科技教育可採用評量項目如下,並加以分類,其中1-3屬於傳統評量方式,4-20為變通性評量方式;1-6是客觀評分之評量方式,7-20評分則較為主觀;1-4是特定反應項目的評量,5-20是建構反應項目、答案自由開放的評量。傳統式評量 變通性評量1.是非題 4.改錯題 13.技能檢核表2.多重選擇題 5.完成題 14.實作測驗3.配合題 6.簡答題 15.科技
19、教室實務7.問答題 16.作業計畫8.書面報告 17.會議9.實驗記錄 18.學習歷程紀錄10.觀察 19.自評量表11.討論 20.同儕評分表12.晤談MST課程推動的多因評量系統紐約州MST多因評量系統資料來源:NYSED,1999 .學生書面反應 教師參與反應 學生實作申論題書面報告複選題簡答題開放性問題日誌教師觀察晤談長期研究調查操作技能科技教室實作表現作業計畫觀念構圖學習歷程紀錄演示技能檢核表多因評量系統密蘇里州教育局(1991)發展的工業科技教育教師手冊指出:學習評量若實施得宜,將有助於提升教學效果,如同教學方法一般,評量方式越是多元化,則學生學習經驗越豐富。其中建議除了口頭問答、
20、觀察及其他非正式評量方式外,較正式的評量方式有:1.模組本位測驗:若教師採用模組化教學,則需發展個別化的評量為避免耗費教師太多時間,通常與成品/歷程自我評量檢核表、電腦計分測驗、模組學習進步表和同儕評量等方法合併使用。2.進步圖:呈現全班學生的進步情形,多使用於記錄技能或工作成就,透過進步圖可輕易掌握學生各領域能力的精熟情況。3.自我進步檢核表:當作業或活動較長期、複雜,應鼓勵學生持續評估自己的進步。自我進步檢核表中通常清晰地陳述重要事件和預期標準,以便學生能評量自己每一階段的進步情形。4.評量表:多用於評量學生的作業成品、活動、態度等,評量表可由學生自己或其同儕、教師填寫。可依教學情境實際需
21、要而決定誰來評分,但教師必須先將學生實作區分成幾個任務,再根據各個任務的學習水準評分,如此精細化的評分較不易流於籠統和主觀。5.成就測驗:可用於認知及感官四肢的技能表現之評量,教師應根據課程目標加以評量,最有系統的方式是建立細目表,標明每一目標預測量的題數、層級。良好的成就測驗應具備信度、效度和鑑別力,且難度適中、給予合理的測驗時間。6.口頭測驗:可用於確認學生是否完成指定閱讀或其他家庭作業,或書面測驗前的複習,為增加客觀性和涵蓋面,教師應事先設計問題和答案,並將學生回答情形做紀錄。綜合以上學習評量方式的分析,可知目前趨向於採用變通性的評量方式,經歸納性質相同的項目,所得之評量方式為:紙筆測驗
22、(如是非、選擇和問答題等) 、演示(就學生上台示範、表演等評分) 、書面報告(依特定主題蒐集資料撰寫的報告) 、觀察(教師觀察學生學習態度、情意表現等) 、參與討論(課堂上學生參與討論表達意見的情形) 、晤談(教師與學生個人或小組談深入了解其學習情形) 、技能檢核表(教師就學生作品呈現的技巧依固定標準表對照評分) 、實作測驗(舉行學習活動讓學生參與、操作,再根據他的表現加以評量) 、科技教室實務(就學生在科技教室中使用機具適切、安全與否評分) 、作業計畫(就學生所擬計畫及按照計畫完成作業的能力予以評分) 、學習歷程紀錄(學生持續記錄學習情形並收集其作品、作業和成績等)、評量表(包括教師、同學或
23、學生自己對作品和學習態度的評分) 、進步圖(老師以圖表方式記錄每名學生在各單元的進步情形) 、模組本位測驗(教師針對學生所選擇學習的各種不同自學單元給予不同評量) 、口頭測驗(包括正式或非正式的口頭問答)15項。本文撰寫除廣泛評量基本概念的探討,並歸納出教師實施學習評量時應該注意的原則,最後從國內外較新的文獻,探討當今學習評量方法和技術的趨勢為何,提供教師彈性地加以調整應用。現今評量趨勢所強調的彈性、動態的真實評量,教師在教學歷程中,可以持續檢核自己實施評量的優缺點,並從多元的評量方式中,選擇適合自己實際教學活動者加以應用,以免評量太過主觀且缺乏標準,或流於傳統紙筆測驗形式。綜合活動領域包含眾
24、多科目,其內容豐富多元而動態,自然應,該採取多元評量方式,如此教學與學習效果才能相互呼應。參考文獻一中文部分邱廣治(民 75),高中英文教學評量之研究。台北:國立台灣師範大學教育研究所碩士論文。簡茂發(民 85) ,評量,載於黃政傑主編,教學評量,頁 1-19。台北:師大書苑。簡茂發(民 88) ,多元化評量之理念與方法。教師天地,99,頁11。二英文部分Aspinwall, K., Simkins, T., Wilkinson, J. F., & McAuley, M. J.(1992).Managing evaluation in education. London:Routledge.B
25、anks, F. (1994) .Teaching technology. London: Routledge.Blythe, T.( 1998).The teaching for understanding guide. San Francisco, CA: Jossey- Bass. Evans, F. F., Evans, W. H., & Mercer, C. D. (1986). Assessment for instruction. Newton, MA: Allyn and Bacon.Farrell, A., & Patterson, J.(1993).Understandin
26、g assessment in design and technology. London:Technology Education Research Unit. Groulund, N. E.(1998).Assessment of student achievement. Needham Heights, MA: Allyn & Bacon.Guba, E. G., & Lincoln Y. S. (1989). Fourth generation evaluation. Newbury Park, CA: Sage.Hutchinson, J. (1988). Introduction
27、to technology course/ Level 1: curriculum project. Commission on Technology Education for the State of New Jersy. Kimbell, R. (1997) .Assessing technology. London: Open University Press.New York State Education Department (NYSED). (1999). Mathematics, Science, & Technology, Part 3.1, Assessment mode
28、ls . Available on http:/ www.nysed.govMissouri State Department of Elementary and Secondary Education(1991). Missouri industrial technology/ technology education guide. (ERIC Document Reproduction Service No. ED 336-519)New York State Systemic Initiative(NYSSI). (1999). Available on http:/ www.nyssi/ assess.htm.Nitko, A. J. (1996). Educational assessment of students. Englewood Cliffs, NJ : Prentice Hall.