【 文獻(xiàn)號 】1-629 【原文出處】教育研究 【原刊地名】京 【原刊期號】199911 【原刊頁號】32~37 【分 類 號】G1 【分 類 名】教育學(xué) 【復(fù)印期號】200001 【 標(biāo) 題 】20世紀(jì)教育測量學(xué)發(fā)展的回顧與現(xiàn)狀評析 【 作 者 】張敏強(qiáng) 【作者簡介】張敏強(qiáng),中山大學(xué)高教所所長、教授。廣州 510275 【 正 文 】 20世紀(jì)是教育測量學(xué)興起并得到迅速發(fā)展的世紀(jì)。在理論上,經(jīng)典測量理論不斷得到完善,現(xiàn)代測量理論亦得以發(fā)展。在應(yīng)用上,由于計算工具的飛速發(fā)展,使教育測量學(xué)的應(yīng)用上了更高的層次并拓展至各個領(lǐng)域,反過來又促進(jìn)了理論的研究和發(fā)展。本文對本世紀(jì)教育測量學(xué)的發(fā)展作了回顧,并對現(xiàn)狀作出評析。 一、教育測量學(xué)簡史 教育測量學(xué)是在本世紀(jì)二三十年代興起、四五十年代定型、六七十年代迅速發(fā)展起來的一門教育學(xué)科?;仡櫯c展望教育測量學(xué)的歷史,可以使我們進(jìn)一步了解和確認(rèn)教育測量產(chǎn)生與發(fā)展的歷史必然性和合理性。 作為教育測量的基本形式的考試和測驗(yàn)最早可以追朔到隋煬帝大業(yè)二年(公元606年)的科舉制。科舉制的特征是:逐級考試選拔人才;制度相當(dāng)完備,考場規(guī)定相當(dāng)嚴(yán)格;有一套命題、保密、封存、評卷的措施及違者的處罰規(guī)定??婆e制在唐朝極盛,所用的方法有口試、貼經(jīng)、墨義、策問、詩賦等五種。宋、元、明、清各朝基本沿襲了科舉制,至清末,程式嚴(yán)格的八股文成了經(jīng)義考試的主要形式,使考試成了僵死的東西,科舉制由此走向衰敗。 19世紀(jì)末20世紀(jì)初,實(shí)驗(yàn)心理學(xué)和心理測驗(yàn)的發(fā)展推動了教育測量的發(fā)展。1904年,被譽(yù)為教育測量之鼻祖的美國心理學(xué)家桑代克,出版了《心理與社會測量(Mental and Social Measurements)》一書,該書首次系統(tǒng)介紹了統(tǒng)計方法和編制測驗(yàn)的基本原理。教育測量的客觀化、標(biāo)準(zhǔn)化問題受到了極大的重視,教育測量由此走上科學(xué)化的道路。1909年桑代克又用統(tǒng)計學(xué)上的“等距原理”編制了首批標(biāo)準(zhǔn)化的教育測檢量表,如《書法量表》、《拼字量表》、《作文量表》等。從1909年到1915年,教育測驗(yàn)逐漸增多,并且從單獨(dú)的學(xué)科測驗(yàn)擴(kuò)展至綜合測驗(yàn)的編制,即由幾種主要學(xué)科的測驗(yàn)組合而成。同時,教育測驗(yàn)不再限于小學(xué)的學(xué)科測驗(yàn),中等學(xué)校以上的各科測驗(yàn)大都一一編制出來。不僅學(xué)科測驗(yàn)有了發(fā)展,診斷測驗(yàn)和練習(xí)測驗(yàn)也陸續(xù)有所編制。當(dāng)時在西方已興起利用教育測量進(jìn)行教育調(diào)查研究的風(fēng)氣。 辛亥革命后,教育測量學(xué)隨著西方的科學(xué)技術(shù)被引進(jìn)我國。1918年,俞子夷根據(jù)桑代克《書法量表》的編制程序,編制了《小學(xué)國文毛筆書法量表》,開我國教育測量編制的先河。1919年,廖世承和陳鶴琴在南京高等師范學(xué)校講授測驗(yàn),為我國高校設(shè)置測驗(yàn)課程之始。1922年,美國測驗(yàn)學(xué)專家麥柯爾(McCall,W.A. )應(yīng)中華教育改進(jìn)社之邀來華講學(xué),并主持編制各種應(yīng)用測驗(yàn)。至1925年前后,編成的中小學(xué)教育測驗(yàn)不下幾十種,例如廖世承的《中學(xué)國文常識測驗(yàn)》、《中學(xué)文法測驗(yàn)》,陳鶴琴的《小學(xué)默讀測驗(yàn)》、《小學(xué)文法測驗(yàn)》等。 1931年中國教育測驗(yàn)學(xué)會在南京成立,1932年《測驗(yàn)》雜志創(chuàng)刊。1935年,中央大學(xué)教育學(xué)院編制了《小學(xué)國語默讀測驗(yàn)》、《小學(xué)算術(shù)測驗(yàn)》、《小學(xué)中年級常識測驗(yàn)》等??谷諔?zhàn)爭爆發(fā)后,中央大學(xué)西遷重慶,艾偉組織與指導(dǎo)中央大學(xué)一些師生繼續(xù)編制教育測驗(yàn),如《中學(xué)語文理解力量表與漢字測驗(yàn)》等。 同時,我國一些從事教育測量研究和教學(xué)的學(xué)者,出版了有關(guān)專著和教材,如孟憲承的《測驗(yàn)之學(xué)理研究》、王征葵的《態(tài)度測驗(yàn)法》、沈有乾的《心理與測驗(yàn)》等。全國各高校教育學(xué)系和中等師范學(xué)校開設(shè)了教育測量或心理與教育測量的課程。 1949年到1978年之間的30年,由于受原蘇聯(lián)教育理論的影響,教育測量學(xué)遭到否定。 自從1978年黨的十一屆三中全會召開以后,教育和心理測量重新開始受到重視。張術(shù)祖在《教育研究》1979年第5 期發(fā)表了《論教育測量的重要性和教育測量的一些基本概念》,被認(rèn)為是建議恢復(fù)教育測量學(xué)研究和教學(xué)的第一篇論文。1982年,在葉佩華等的主持下,翻譯了桑代克、哈根合著的《心理與教育的測驗(yàn)和評價(Measurement and Evaluation in Psychology and Education)》(1977年版), 這是自1979年以來的第一本有影響的教育測量譯著。隨后,教育測量學(xué)被列為高校教育系的必修課。 1988年,經(jīng)中國教育學(xué)會批準(zhǔn),中國教育學(xué)會教育統(tǒng)計與測量研究會正式成立,由張厚粲任第一屆理事長,葉佩華任名譽(yù)理事長。在研究會成立以后,多次舉辦高層次的講習(xí)班。研究會的部分會員自1985年以來積極參加全國高考標(biāo)準(zhǔn)化改革實(shí)驗(yàn),在全國高考命題標(biāo)準(zhǔn)化、施測標(biāo)準(zhǔn)化、評卷記分標(biāo)準(zhǔn)化、分?jǐn)?shù)報告標(biāo)準(zhǔn)化等方面的策劃和實(shí)踐中作出了積極的貢獻(xiàn)。 在上述這段時間,除教材以外,還出版了不少教育測量學(xué)方面的論著,如張厚粲等的《標(biāo)準(zhǔn)化考試簡介》、桂詩春的《標(biāo)準(zhǔn)化考試的理論與實(shí)踐》、張敏強(qiáng)等的《標(biāo)準(zhǔn)化考試》、鄭日昌等的《教育測量學(xué)的基礎(chǔ)》等等。這些論著的出版及高考標(biāo)準(zhǔn)化改革實(shí)驗(yàn)的成功,加上輿論的支持,在全國真正打開了宣傳教育測量學(xué)、重視教育測量學(xué)的新局面。1988 年, 我國正式加入國際教育成就評價協(xié)會(InternationalAssociation for Educational Assessment, IAEA)??梢哉f,1979年以來的20年中,我國的教育測量學(xué)的教學(xué)與研究工作者以優(yōu)良的成績,使教育測量學(xué)在教育科學(xué)領(lǐng)域中占據(jù)了重要的一席。 二、教育測量學(xué)基本理論與方法的評析 下面對20世紀(jì)主要的教育測量理論:經(jīng)典測量理論與題目反應(yīng)理論作出比較與評析。 (一)經(jīng)典測量理論的優(yōu)點(diǎn)與不足 經(jīng)典測量理論經(jīng)過幾十年的發(fā)展,形成了以真分?jǐn)?shù)理論作為其理論基礎(chǔ),并具有完善、可操作的對題目和測驗(yàn)進(jìn)行統(tǒng)計分析的方法。 經(jīng)典測量理論的優(yōu)點(diǎn)在于:(1)以弱假設(shè)作為理論基礎(chǔ)。 這些弱假設(shè)條件容易被絕大多數(shù)測驗(yàn)數(shù)據(jù)資料所滿足。所以,從實(shí)用的意義上說,其應(yīng)用具有廣泛性。(2)具有明了簡單的統(tǒng)計分析方法, 且這些統(tǒng)計分析方法都有數(shù)學(xué)上的實(shí)際意義,易于掌握和理解。(3 )我國教育測量工作者對經(jīng)典測量理論及方法有深刻的認(rèn)識,其應(yīng)用具有基礎(chǔ)性。 其不足之處有:(1 )經(jīng)典測量理論的方法所求得的題目參數(shù)(如題目難度、題目區(qū)分度)會受到不同考生樣本組能力水平的影響。所以,選取的考生樣本不同,就有可能得出不同的題目難度和題目區(qū)分度,故在考生樣本選取方面要做到非常精確有一定的困難。(2 )在經(jīng)典測量理論的條件下,題目參數(shù)與考生得分量是在不同的基礎(chǔ)上分別求得的,所以無法建立考生得分與測驗(yàn)題目參數(shù)之間的函數(shù)關(guān)系,即考生能力的估計會由于測驗(yàn)的改變而改變。(3 )經(jīng)典測量理論中有兩個重要的假設(shè)條件,即嚴(yán)格的平行測驗(yàn)和測驗(yàn)誤差與真分?jǐn)?shù)相關(guān)為零,這在實(shí)際操作中是難以做到的。 (二)經(jīng)典測量理論的質(zhì)量評估 測量工具決定著測量結(jié)果的準(zhǔn)確性。所以,良好的測驗(yàn)也決定著測量結(jié)果的準(zhǔn)確度,評價一份測驗(yàn)的優(yōu)良性,主要有以下內(nèi)容。 1.效度。它是指測驗(yàn)是否測出了所要測的東西。效度分為:(1 )內(nèi)容效度,即測驗(yàn)的題目與內(nèi)容是否與教學(xué)內(nèi)容與目的相適應(yīng)。(2 )構(gòu)想效度,即測驗(yàn)的分?jǐn)?shù)是否達(dá)到了某一預(yù)想的特質(zhì)。(3 )效標(biāo)關(guān)聯(lián)效度,用測驗(yàn)所得分?jǐn)?shù)與標(biāo)準(zhǔn)測驗(yàn)所得的分?jǐn)?shù)的相關(guān)來制定這次測驗(yàn)的效度,稱之為效標(biāo)關(guān)聯(lián)效度,而標(biāo)準(zhǔn)測驗(yàn)則被稱之為“效標(biāo)”,在此起到預(yù)測作用。 2.信度。信度是反映測量的一致性程度的指標(biāo)。計算信度的方法主要有:(1)再測信度, 即對同一被試總體進(jìn)行重復(fù)測量而得到的兩組數(shù)據(jù),以相關(guān)系數(shù)的大小表示一致性程度,相關(guān)系數(shù)高,則說明信度高。(2)復(fù)本信度,即建立兩個在內(nèi)容、質(zhì)量各方面都相等的測驗(yàn), 并對實(shí)施后的兩個測驗(yàn)分?jǐn)?shù)求相關(guān)。(3)分半信度, 把一個測驗(yàn)分為質(zhì)量相等的兩部分,求這兩部分所得的分?jǐn)?shù)的相關(guān)。要提高信度,可以加長測驗(yàn)。但信度是效度的必要條件,而不是充分條件,即信度低,效度不可能高,但信度高,效度不一定高。 3.區(qū)分度。區(qū)分度是測驗(yàn)題目對被試者能力高低的鑒別能力。不同的測驗(yàn)要求有不同的區(qū)分度指標(biāo),如高考對區(qū)分度的要求就比中學(xué)會考高。 4.難度。難度是指測驗(yàn)題目的難易程度。顯然,難度大,通過率低;難度小,通過率高。難度指標(biāo)的高低直接影響到區(qū)分度指標(biāo),因?yàn)殡y度太大或太小,都將使題目的鑒別能力受到影響。 (三)經(jīng)典測量理論的評價工具 評價是把測驗(yàn)結(jié)果放在一定的參照標(biāo)準(zhǔn)上來評定其高低、優(yōu)劣。評價工具是按參照標(biāo)準(zhǔn)編制出來的,評價工具也與物理測量的量具同理,須具備以下的要素。(1)參照點(diǎn)。這是計算的起點(diǎn),參照點(diǎn)不同, 測量結(jié)果就會因其所代表的意義不同而無法進(jìn)行比較。(2)單位。 這是測量的基本要求。教育測量也須有相應(yīng)的單位,但教育測量的單位卻往往不等距或等距不等值。比如,在同一數(shù)學(xué)測驗(yàn)上,兩考生分別得100分與80分,另兩考生分別得70分與50分,分?jǐn)?shù)差相等但卻不能認(rèn)為差距相同。 教育測量的評價工具所參照的標(biāo)準(zhǔn),主要有以下兩種。(1 )標(biāo)準(zhǔn)參照測驗(yàn)。標(biāo)準(zhǔn)參照測驗(yàn)是以被試對測驗(yàn)?zāi)繕?biāo)或內(nèi)容的掌握程度作為標(biāo)準(zhǔn)。按照參照標(biāo)準(zhǔn)的不同,可將標(biāo)準(zhǔn)參照測驗(yàn)的分?jǐn)?shù)分為兩種:1 )內(nèi)容參照分?jǐn)?shù)。這種分?jǐn)?shù)是依據(jù)被試對某個確定的內(nèi)容或技能的掌握和熟悉程度來表示的,因而,建立內(nèi)容參照分?jǐn)?shù)的前提是測驗(yàn)內(nèi)容范圍的確定;2)結(jié)果參照分?jǐn)?shù)。用效標(biāo)行為的標(biāo)準(zhǔn)來解釋測驗(yàn)分?jǐn)?shù), 稱為結(jié)果參照分?jǐn)?shù)。由此可知,標(biāo)準(zhǔn)參照測驗(yàn)是一種使用廣泛的測驗(yàn)形式,如會考、課程考試等等。(2)常模參照測驗(yàn)。 這是以全體考生在某一大規(guī)模測驗(yàn)中所得到的成績分布為標(biāo)準(zhǔn),衡量被試在這一測驗(yàn)上所得到的成績在全體成績分布中所處的地位。因而,將被試在這類測驗(yàn)上所得到的分?jǐn)?shù)作單獨(dú)解釋是毫無意義的,只能將它放在被試團(tuán)體中作比較。這個團(tuán)體的分布則稱為模團(tuán)體,而對常模參照測驗(yàn)的測驗(yàn)分?jǐn)?shù)作解釋的參照則稱為常模。 (四)題目反應(yīng)理論的評析 題目反應(yīng)理論是現(xiàn)代測量理論中最具代表性的一種。題目反應(yīng)理論是建立在潛在特質(zhì)理論基礎(chǔ)之上的。題目反應(yīng)理論認(rèn)為,潛在特質(zhì)指的是所要測的內(nèi)在能力,定量地估計個體在每一種特質(zhì)上的位置是心理測驗(yàn)的任務(wù)。但是,由于心理特質(zhì)的潛在性,心理學(xué)家只能依據(jù)可觀測變量來鑒別和定義這些特質(zhì),并希望能探明:哪些特質(zhì)所起的作用是重要的,哪些特質(zhì)對人的行為發(fā)展產(chǎn)生重大影響,等等。 題目反應(yīng)理論的最大特點(diǎn)就是它找到了一條題目特征曲線(ItemCharactteristic Curve簡稱ICC),并且以多種數(shù)學(xué)表達(dá)式(或數(shù)學(xué)模型)來描述它和逼近它。題目特征曲線的數(shù)學(xué)模型一般都包含兩個方面的參數(shù):(1)對測驗(yàn)題目的特征進(jìn)行刻畫的題目參數(shù);(2)對考生的特征進(jìn)行刻畫的潛在特質(zhì)或稱為能力參數(shù)。 從題目反應(yīng)理論的特點(diǎn)看,它是建立在如下的假設(shè)之上:(1 )一維性(考生的某一測驗(yàn)結(jié)果只取決于一種潛在特質(zhì)或能力,其他能力的影響可忽略);(2)局部獨(dú)立(考生答題目時不受其他試題的影響);(3)適合的數(shù)學(xué)模型(必須經(jīng)過擬合性檢驗(yàn))。 題目反應(yīng)理論的優(yōu)點(diǎn)在于:(1 )試題難易度的估計不因樣本不同而不同,題目反應(yīng)理論的題目參數(shù)估計是獨(dú)立于考生樣本組的。(2 )考生能力的估計不因測驗(yàn)改變而改變。題目反應(yīng)理論可以使考生能力發(fā)展水平的估計獨(dú)立于所施測題目組,從而為對不同水平的考生實(shí)施題目不同的測驗(yàn)或設(shè)立自適應(yīng)測驗(yàn)奠定了理論與方法基礎(chǔ)。(3 )測量誤差的估計因考生程度不同而不同。利用計算得到的測驗(yàn)信息函數(shù)來估計測驗(yàn)標(biāo)準(zhǔn)誤差,并以此作為區(qū)間估計,從而取代了經(jīng)典測量理論中平行測驗(yàn)的信息概念。由于題目信息函數(shù)和測驗(yàn)信息函數(shù)與個人有關(guān),測驗(yàn)標(biāo)準(zhǔn)誤差就會因人而異,這就為準(zhǔn)確地估計每個考生的能力水平提供了準(zhǔn)確的信息。(4)為多種形式測驗(yàn)的實(shí)施提供了更為完整的理論與方法。在題目分析和估計考生能力的同時,可以得到題目信息函數(shù)和測驗(yàn)信息函數(shù)這兩個統(tǒng)計量。有了這兩個測驗(yàn)信息就為精確估計每個考生的能力水平,控制不同能力水平的考生的測量誤差提供了標(biāo)準(zhǔn)。這也為自適應(yīng)測驗(yàn)的實(shí)施提供了必要的實(shí)施條件。 題目反應(yīng)理論的不足之處在于:(1 )對數(shù)學(xué)模型與實(shí)測數(shù)據(jù)的擬合要求較高。(2 )題目反應(yīng)理論需要的一維性假設(shè)是對任何數(shù)學(xué)模型的共同假設(shè),這是因?yàn)闇y驗(yàn)編制者都希望提高測驗(yàn)分?jǐn)?shù)的可解釋性。但到目前為止,尚沒有一種能驗(yàn)證一維性假設(shè)的方法。 (五)經(jīng)典測量理論與題目反應(yīng)理論在題目分析上的評析 題目分析是在考試或測驗(yàn)進(jìn)行后,對數(shù)據(jù)作統(tǒng)計分析處理的重要環(huán)節(jié),由于依據(jù)的測量理論不同,則題目分析結(jié)果所提供的信息也不相同。一般來說,經(jīng)典測量理論的題目分析主要計算題目難度、區(qū)分度以及繪制題目難度曲線;題目反應(yīng)理論的題目分析主要計算題目難度、區(qū)分度、猜測系數(shù)以及繪制題目特征曲線。表面上看,二者之間的差別不大,但實(shí)際上依據(jù)不同理論所作的題目分析有著實(shí)質(zhì)的差別。 1.經(jīng)典測量理論的題目參數(shù)是依賴于樣本而求得的,不同的考生樣本組,將會得到不同的題目參數(shù)值。而題目反應(yīng)理論的題目參數(shù)的求得,則與樣本無關(guān)。 2.經(jīng)典測量理論是以考生在試卷上通過的題目總數(shù)中總得分來計算成績的。實(shí)際上測驗(yàn)題目有難有易,因而,考生在完成不同的題目時所需要的知識和能力并不相同。但經(jīng)典測量理論卻忽視了這一點(diǎn),它不去判別考生在答每一道題目時所需要的能力大小。而題目反應(yīng)理論卻在估計題目參數(shù)的同時,也估計了考生的能力參數(shù)。它是綜合了考生全卷答案的正誤情況和題目的難度、區(qū)分度、猜測系數(shù)等參數(shù)后經(jīng)過精確計算再作出對考生能力參數(shù)的估計。這樣,對于完成了數(shù)量相同、但題目內(nèi)容不同的考生,由于各題目的參數(shù)不同,就有可能得到不同的能力參數(shù)。 3.題目反應(yīng)理論提供了測驗(yàn)信息函數(shù)和題目信息函數(shù)兩個非常有用的概念,這在經(jīng)典測量理論中是沒有的。測驗(yàn)的目的之一就是希望獲取考生水平的有關(guān)信息。題目的質(zhì)量不同,所能提供的信息也不相同,因而,題目反應(yīng)理論提出了信息函數(shù)這一客觀指標(biāo),用以綜合說明每道題目所提供的信息量。 4.對于主觀性題目,經(jīng)典測量理論也可以計算出題目的難度、區(qū)分度、繪出題目難度曲線,盡管信度不甚高,但仍能有效地做題目分析。而題目反應(yīng)理論則到目前為止還未找到一種對主觀性題目做題目分析的有效和可靠的方法。 5.經(jīng)典測量理論與題目反應(yīng)理論對于題目參數(shù)的估計和計算,盡管有很大區(qū)別,但在題目分析中,在一定的條件下仍然有聯(lián)系。 在關(guān)于經(jīng)典測量理論與題目反應(yīng)理論的對比研究中,許多研究者都同意,題目反應(yīng)理論在概念上比較嚴(yán)密,題目參數(shù)的定義不依賴于考生樣本,對題目特征的刻畫比經(jīng)典測量理論更為合理、深刻。但是題目反應(yīng)理論依賴于較強(qiáng)的假設(shè),在應(yīng)用上不易滿足,同時有人認(rèn)為:(1 )題目反應(yīng)理論的計算工作量太大,計算過程復(fù)雜;(2 )題目反應(yīng)理論需要的一維性假設(shè)不一定能得到滿足。我們知道,迄今為止,我國的專業(yè)考試機(jī)構(gòu)或考試管理機(jī)構(gòu)一般都已配備有較好的計算設(shè)備,而且目前計算方法及計算程序都較為完備,可以說,已解決了計算工作量大、計算過程復(fù)雜的問題。至于某些科目的一維性假設(shè)不一定能得到滿足的問題,我們可以設(shè)想把整個科目分解成若干個分測驗(yàn),使每一個分測驗(yàn)?zāi)軡M足必須得到滿足的假設(shè),從而有利于應(yīng)用題目反應(yīng)理論進(jìn)行題目分析。當(dāng)然,這樣做還可能引起另外一些問題,如各個分測驗(yàn)題目量的大小,分測驗(yàn)之間分?jǐn)?shù)的合成等問題。但是我們相信,隨著研究的逐步深入,這些問題最終都是可以解決的。 (六)測驗(yàn)等值的評析 1.測驗(yàn)等值的概念與條件。測驗(yàn)中的一項(xiàng)非常重要的技術(shù)方法是測驗(yàn)等值,測驗(yàn)等值是本世紀(jì)教育測量學(xué)發(fā)展中一個全新的概念。若考查相同心理特質(zhì)的測驗(yàn)(或稱相同能力或?qū)W力的測驗(yàn))所獲得的測驗(yàn)分?jǐn)?shù)有一個統(tǒng)一的、可比的解釋量表,以能使不同次的測驗(yàn)分?jǐn)?shù)的解釋不會隨測驗(yàn)分?jǐn)?shù)的不同而改變,就需要通過一定的技術(shù)方法把它們聯(lián)系起來。而所采用的這一技術(shù)方法則稱為測驗(yàn)等值。 測驗(yàn)等值包含兩方面的內(nèi)容:(1 )把不同測驗(yàn)所得到的分?jǐn)?shù)進(jìn)行等值;(2)對測驗(yàn)題目的參數(shù)進(jìn)行等值。 分?jǐn)?shù)等值與題目參數(shù)等值可認(rèn)為是相對獨(dú)立的兩種內(nèi)容,但實(shí)質(zhì)上它們之間是有密切聯(lián)系的。 并非任何測驗(yàn)都是可以等值的。首先,要進(jìn)行等值的測驗(yàn)必須是測量同一心理特質(zhì)的測驗(yàn);其次,只有信度相等的測驗(yàn)才能等值。 2.測驗(yàn)等值理論與方法的依據(jù)。測驗(yàn)等值理論與方法是建立在以下假設(shè)基礎(chǔ)上的:(1)公平性(Equity)。 指的是如果兩個或兩個以上的測驗(yàn)的確是等值的,那么,無論以其中哪一個測驗(yàn)作為基礎(chǔ)進(jìn)行等值轉(zhuǎn)換,都應(yīng)該是一樣的。(2)橫跨群體的不變性(Invarance across groups)。因?yàn)闇y驗(yàn)等值是測驗(yàn)之間的客觀存在的實(shí)際關(guān)系,所以,雖然測驗(yàn)等值的轉(zhuǎn)換方程源于樣本,但轉(zhuǎn)換方程獨(dú)立于考生組的性質(zhì)和測時的具體情境。(3)對稱性(Symmetry)。 指的是被作為等值基礎(chǔ)的測驗(yàn),無論是選取測驗(yàn)X或測驗(yàn)Y,都不影響等值。(4 )測驗(yàn)的一維性(Unidimensionality of the tests)。指的是被等值的測驗(yàn)都必須是測量同一維心理特質(zhì)的。 3.測驗(yàn)等值的應(yīng)用。在目前社會強(qiáng)烈呼吁改革高考“一考定終身”的情況下,測驗(yàn)等值更顯其特殊的意義。測驗(yàn)等值理論為實(shí)行多次考試提供了可靠的理論依據(jù),測驗(yàn)等值方法則為多次不同時間的考試分?jǐn)?shù)提供了轉(zhuǎn)換和比較的方法,特別是為測驗(yàn)考試計算機(jī)化提供了理論基礎(chǔ)和可操作性的方法。顯然,測驗(yàn)等值的應(yīng)用和理論與方法的突破,將使測量產(chǎn)生一場革命。目前,TOEFL考試、GRE考試都采用了計算機(jī)化考試,這就是測驗(yàn)等值的具體應(yīng)用。 測驗(yàn)等值的實(shí)施有其特定的等值設(shè)計,如單一組設(shè)計、共同參照測驗(yàn)設(shè)計等等。同樣也有經(jīng)典測量理論等值和題目反應(yīng)理論等值的方法,有興趣深入了解的讀者可閱讀有關(guān)專著。 三、正確應(yīng)用教育測量學(xué)的理論與方法 從教育測量學(xué)的現(xiàn)狀及發(fā)展趨勢來看,其應(yīng)用范圍和功能地位正在日益擴(kuò)大和提高。因而,測量成為人們關(guān)注的社會問題便不足為奇。在這里我們討論的是如何正確使用教育測量學(xué)的理論與方法。 任何事物都有其兩面性,任何一種工具都有其利弊。所以,以科學(xué)的態(tài)度正確地應(yīng)用教育測量學(xué),是每一位教育工作者的職責(zé)。 1.測驗(yàn)的選擇要慎重。每一種測驗(yàn)都有其特定的目的、功能及適用范圍。因而,確定測驗(yàn)時一定要慎重考慮,例如要弄清楚在什么場合應(yīng)用常模參照測驗(yàn),什么場合應(yīng)用標(biāo)準(zhǔn)參照測驗(yàn),不同的參照系的不同的統(tǒng)計分析指標(biāo)等。不問目的隨便套用測驗(yàn),必將影響效果,也得不到應(yīng)有的結(jié)果。 2.測驗(yàn)的實(shí)施過程要嚴(yán)格控制誤差。任何測驗(yàn)實(shí)施的過程中,都要按照操作規(guī)定的要求進(jìn)行,嚴(yán)格控制這一過程中可能出現(xiàn)的各種無關(guān)因素的干擾。要對測驗(yàn)的實(shí)施者進(jìn)行培訓(xùn),這樣,才能把誤差,特別是人為誤差控制住,從而確保測驗(yàn)結(jié)果的可靠性。 3.正確解釋和看待測驗(yàn)結(jié)果。(1 )對測驗(yàn)分?jǐn)?shù)的解釋必須在教育測量學(xué)的有關(guān)理論指導(dǎo)下進(jìn)行,即在解釋分?jǐn)?shù)時,不能只給出一個分?jǐn)?shù),在可能的情況下還應(yīng)當(dāng)給出可以比較的位置(排序),不同學(xué)科分?jǐn)?shù)的相加,也要使之具有合理的可加性。(2 )測驗(yàn)分?jǐn)?shù)并不是存在于真空之中,分?jǐn)?shù)的意義是和與分?jǐn)?shù)相配合的信息群的完整性及廣泛性成正比的,如個人文化修養(yǎng)、家庭情況、生理及健康狀況等都會影響到個人的測驗(yàn)分?jǐn)?shù),因而,教學(xué)測驗(yàn)分?jǐn)?shù)只能在一定程度上說明學(xué)生在學(xué)校學(xué)習(xí)中,在該學(xué)科上達(dá)到的水平。 四、教育測量學(xué)的現(xiàn)狀及其發(fā)展趨勢 近年來西方的教育測量運(yùn)動方興未艾,在理論上不斷地趨于完善和豐富,在教育實(shí)踐中的應(yīng)用也日趨廣泛和深入。目前教育測量的現(xiàn)狀呈現(xiàn)如下特點(diǎn)——這些現(xiàn)狀同時也昭示著未來一段時期內(nèi)教育測量的發(fā)展趨勢。 1.教育測量的地位進(jìn)一步得到提高。由于社會的發(fā)展要求教育要深化改革,要求對教育改革成效作出正確的評價,這樣就使得教育測量上升到相當(dāng)?shù)臋?quán)威地位,人們對教育測量提供的資料也寄予了更大的希望,從而使教育測量產(chǎn)生更大的政策性督促作用。政策制定者們尋求著加強(qiáng)教育說服力的途徑,由此對教育測量產(chǎn)生新的需求和期望。 2.教育測量的重心發(fā)生了變化。由于認(rèn)知心理學(xué)和人工智能研究的發(fā)展,心理學(xué)家們開始關(guān)注個體信息加工系統(tǒng)的內(nèi)部過程,教育領(lǐng)域亦受到很大影響。教育者們對教育測量產(chǎn)生新的期望,測量已被視作教學(xué)過程的一個不可或缺的部分,其不再局限于對學(xué)生未來成功與否的預(yù)測,而更主要的是用于診斷學(xué)生目前學(xué)習(xí)狀況并更有效地激發(fā)學(xué)生爭取更大進(jìn)步。 3.教育測量的理論得到飛速的發(fā)展。從20年代發(fā)展起來的教育測量理論稱之為經(jīng)典測量,但由于其理論結(jié)構(gòu)的局限性,使它的實(shí)際應(yīng)用范圍受到一定的限制。從60年代開始,在教育科研工作者的努力下,題目反應(yīng)理論、潛在等級分析等現(xiàn)代測量理論的應(yīng)用得以逐步擴(kuò)展。題目反應(yīng)理論為教育測量解決了一些經(jīng)典測量理論無法解決的問題,并且為測驗(yàn)設(shè)計、測驗(yàn)誤差的檢定、測驗(yàn)等值、計算機(jī)化自適應(yīng)性測驗(yàn)的設(shè)計與評分等問題的解決提供了有效的途徑。 4.計算機(jī)技術(shù)的發(fā)展大大提高了測量的效率。幾十年來,測量的發(fā)展及應(yīng)用與電子技術(shù)的發(fā)展緊密相聯(lián)。30年代后期,測驗(yàn)的機(jī)器計分開始出現(xiàn),使得許多客觀測驗(yàn)題能迅速計分,為測驗(yàn)效率的提高做出很大貢獻(xiàn)。七八十年代,計算機(jī)的使用加快了測驗(yàn)的計分與報告的效率,并使測驗(yàn)題庫得以建立,測驗(yàn)方式也多種多樣。與此同時,隨著相對廉價的微機(jī)的普及,計算機(jī)技術(shù)在測驗(yàn)中的功用就更為廣泛和顯著。更為令人嘆服的進(jìn)展在于計算機(jī)施測成為可能。 5.教育測量的結(jié)果更為受人關(guān)注。由于不同的測驗(yàn)會產(chǎn)生不同的結(jié)論,甚至相同的測驗(yàn)也會產(chǎn)生不同的結(jié)論,因此測驗(yàn)者對測驗(yàn)結(jié)果的解釋日趨詳盡、全面和謹(jǐn)慎,并盡量幫助公眾正確理解測驗(yàn)數(shù)據(jù)。此外,人們不再僅僅關(guān)心分?jǐn)?shù),同時也關(guān)心教育測量的其他后果,比如對教師的影響。測驗(yàn)結(jié)果常常與教師的地位、威信等有直接的關(guān)系,如果處理不好,將會影響到教師對教育工作的興趣和信心。 |