效度分析成分变少了是什么原因(效度分析只有一个主成分)效度分析成分变少了是什么原因(效度分析只有一个主成分)

关注健康
关注真实体验

效度分析成分变少了是什么原因(效度分析只有一个主成分)

效度分析成分变少了是什么原因(效度分析只有一个主成分)



摘要:高考英语的效度界定和验效关系到高考英语的整体质量问题。本文从效度的基本概念入手,指出现行的效度界定标准出现偏差,从高考英语试题命制阶段到分数解释这一区间的效度应纳入整体效度的范围之内;目前国内对验效的研究严重不足,充分的验效有助于解决高考英语的质量问题;高考英语试卷不仅是测量工具,而且也是判断效度的重要依据,而语言内容是验效的原点和重点。

关键词:效度;验效;信度;高考试卷;语言内容

一、引言

高考英语作为我国高利害、高风险的大规模考试,无论是全国命题,还是各省命题,命题质量都是第一位的。高考英语的质量可通过多种方式进行分析和评价,人们一般考察测试是否有较高的信度(reliability)和效度(validity),而效度则是一个主要途径。效度这个概念比较复杂,可以包含多种定义,其定义甚至可能多达十几种。通俗地讲,效度指测试的有效性。Richards等(2005:737)认为,效度是测试中一个测验能测出预定要测量的事物的程度或能够引起预报作用的程度。传统意义上,效度指内容效度(content validity)、同期效度(concurrent validity)、预期效度(predictive validity)和构念效度(construct validity)(Johnson, K. & Johnson, H., 1998:363),并且国内以分门别类的效度研究为主。关于高考英语的效度研究,石燕波(2011:6)认为,国内对高考英语试题的研究主要集中在对高考英语试题的类型和题型的研究方面,包括对高考试题的总体分析和对各类题型的具体分析以及解决各类题型的对策及建议,总体来说,国内对高考英语试题的研究相对较少,特别是对各类题型的效度分析研究更少。而笔者认为,国内外虽然在研究测试的效度方面已有大量的文献,但是效度关系到高考英语的质量,我们有必要对效度进行更加深入的探讨。目前,学术界针对效度有两个问题需要解决:(1) 效度的概念一直不清晰,存在混淆现象;(2) 效度的覆盖区间不足,似乎无所不包但又缺少核心内容。因此,本文首先澄清效度的基本概念,力图确定效度的核心内容,并将效度作为一个整体概念来考察高考英语。如何考察效度就涉及到验效(validation)的问题,这是解决效度的基本概念之后探讨的重点所在。

二、以效度来规范高考英语

高考是“普通高等学校招生全国统一考试”的简称,英文为National College Entrance Examination,或National Matriculation English Test(简称为NMET)。本文所讨论的“高考英语”是指这类全国统一考试中的英语学科考试。高考英语因其特殊的选拔功能和对教学的巨大反拨作用对我国的基础教育起到举足轻重的影响,更容易成为社会和教育界的热点问题。我国自2004年高考英语允许部分省份“自主”命题以来,统一命题与分省命题的纷争不断。这种纷争的焦点主要涉及试题的效度和质量问题。2015年,除港、澳、台地区外,全国共有15套高考英语试卷,而2016年全国至少有25个省份采用教育部考试中心统一命制的高考英语试题,今后分省命题的试卷数量将逐步减少。李筱菊(1995,转引自武尊民,2002:36)认为英语高考主要是常模参照性考试,但是由于它在普通教育教学改革中的特殊作用,它同时又是标准参照性考试和诊断性考试。其设计以标准为基础,同时具有可分析性。由于效度直接关系到高考英语的质量,我们可以从效度的视角来审视高考英语,以便了解效度如何规范高考英语。

高考英语本身是一种测量,而效度则应聚焦测量对象。测试的各个环节都能影响高考英语的质量,而效度是为了考察测试本身多大程度上可以反映测试目标。这个测试目标就是测量对象。邹申等(2005:77-78)认为,测量对象、测量工具、测量方法和测量精度称为测量过程的四要素,在语言测试中,测量结果永远是我们认为的语言能力或者学业成绩的结果,是我们现有认识水平上所能操作化描写的语言能力和学业成绩,换句话说,我们永远不能够科学地测量我们还不能操作化描写的语言能力或语言行为表现,更不能测量我们现在还没有认识的语言能力或行为表现;从这种意义上说,语言测试中的测量对象,是随着语言学理论和语言教学理论的发展而不断发展、变化的,而不是一成不变的。由此我们可以推测,测量对象具有不确定性,在实践中导致测试内容模糊,被加入了许多不可测试的内容,比如语言功能方面的交际、使用等。不仅如此,效度范围的扩大情形演变成效度统管测试过程的四要素,甚至可能担当起信度等验证手段的职责。尽管高考英语受多种因素的制约,但我们仍需确定一个基本思路,即加强对其考试内容的研究。从测量学的角度讲,考试内容就是测量对象。效度需要在多大程度、多大范围上来验证高考英语,此类的学术探讨十分必要。毕竟,源于各种效度的推断或结论都是基于测量对象得出的。高考英语的测量工具是试卷,打个比方,高考英语试卷就好比一把尺子,效度表面上关注尺子的刻度是否精确,实则重点关注测量对象,即语言内容。

语言内容是效度根据试卷用途及分数解释来衡量测试质量的最原始基础。1999年,美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发的《教育与心理测试标准》(Standards for Educational and Psychological Testing)对效度做了这样的定义:效度(validity)指根据指定用途支持分数解释的那些事实和理论的有效程度(美国教育研究协会 等,2003:12)。邹申等(2005:184-185)对同一定义的解释是:效度指的是证据及理论对包含在所提议的测试使用之中的测试分数解释的支持程度。该《标准》2014年版为最新版,对效度的定义没有任何变化,英文释义为:Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests(American Educational Research Association, et al, 2014: 11)。从以上定义可以看出,效度是为某种试卷用途的分数解释与语言证据和理论吻合程度如何的整体概念。十余年来,效度的概念稳定不变,而测试的内容(如语言知识和各项技能的比例等)和方式(如笔试或机考)却在不断变化和调整中。在测试理论界,学者们经常对效度进行进一步的细分,历数这种效度比那种效度如何更重要,却忽视了测试的语言内容,这种现象应引起足够重视。就高考英语来说,在试卷用途未改变的情况下,分数解释无论过去还是现在都应以试卷中的语言内容为基准。

效度分析忽略了从语言内容到分数解释这一过程的连贯性,导致实际效度的降低。就高考英语而言,从语言内容到分数解释这一区间指高考命题到高考分数公布这一过程。这个过程受多种因素影响,充满变数,可导致效度的高低之分。当然,高考英语从命题到分数公布,再到分数使用,许多过程都涉及效度的问题。效度的基本概念多年保持不变的前提是测试工具即试卷的语言内容被理论界认定为准确无误,这未免过于理想化。高考英语的理想状态是语言内容正确,分数解释恰当,但高考英语就在这一区间最容易出现效度问题。桂诗春(2015:228)认为,分省命题的高考英语分数不可比,而各地所开发的考试却几乎没有提供必要的文件来解释考试的分数,也没有提供效度和信度的有关证据。效度如果忽视了语言内容到分数解释这一区间,无论是“语言内容”还是“分数解释”出现问题,继而依据分数解释得出的各种推论无异于空中楼阁,效度就无从谈起。

判断高考英语是否真正测量了要检测的内容,效度就应考察从语言内容到分数解释这一区间。不仅如此,由于高考英语受多种因素影响,我们还需要考虑效度和信度的相互影响。首先,语言内容并不等同于内容效度中的内容。语言内容是依据外语教学理念选定的英语体系当中的小项目。内容效度指检验项目在多大程度上测量了特定的目标并反映了任务的范围或领域,所谓的“内容”在不同的测试中有不同的情况,主要指测试的整体目标,考察内容效度是为了检测整体目标下的子项目是否符合整体目标的方向,即是否测量了整体目标想要测量的内容(李静纯,2005:356)。其次,分数解释本身就是一个复杂的过程,受限于测试的评分方法。Bachman和Palmer(1996:226)认为,测试有两种评分方法,一种是以测试任务是否完成为依据,根据测试任务圆满完成的界定和考生回答的正误判断(或正确程度)来赋分;另一种是使用语言能力的评分量表,根据评分量表的确定并依据这一量表决定考生的分数等级。再次,在考察语言内容到分数解释这一区间时,仅仅依靠效度来考察测试则难以胜任。尽管侧重点不同,效度和信度常常交织在一起。甚至有一种观点认为,“现代意义上的效度,已经几乎无所不包,当然也包括了信度”(邹申 等,2005:191)。信度指测试中一个测验的测量结果在多大程度上具有一致性(Richards, et al,2005:585)。考察效度时,我们超越赋分的信度范畴,主要考察考生的测试行为和其他场景中的各类行为的相互关系……虽然有必要同时考虑信度和效度,但两者很难区分,很多情况下,我们坚持区分它们,在两者之间画出一条线,某种程度上讲,这种区分是武断行为(Bachman,1990:236,241)。既然我们要从效度的角度审视并以效度来考察并规范高考英语,效度的考察范围应扩大到语言内容至分数解释这一发展区间。



三、验效是确保高考英语质量的必要途径

为了保证高考英语的质量,我们有必要对这种测试进行效度研究,这个研究和验证过程就是验效。验效(validation)又称效度验证、效验、验证等。Richards等(2005:737)认为,验效指测试中用各种方法收集证据来支持从测试分数中得到的推论的过程。邹申等(2005)将“验效”称之为“效验”,解释如下:

效度证据是通过效验而取得的。效验,用通俗的话说,就是对一种测试进行效度研究。但是,这句通俗的话却是一句不够精确而且容易引起误解的话,因此需要改进。用精确的语言讲,效验,就是根据现时的、较为公正的效度理论框架,为特定测试结果的使用、解释以及根据该结果可能做出的推断或决策提供一些可以参考的科学证据或依据。如果说测试结果的使用、解释以及根据该结果可能做出的推断或决策可以比作论点的话,那么,效验的本质就是为论点的确立提供论据(邹申 等,2005:192)。

以上两种验效界定,一个是基于“测试分数”,另一个则基于“测试结果”,但是都忽略了从语言内容到分数解释这一发展区间。这是由现有的效度定义缺陷所导致的。此外,Bachman(1990:238)认为,在验效过程中,我们不是考察测试效度或者赋分效度本身,而是通过解读或使用那些测试程序收集到的信息,考察处理这些信息方式的效度。从Bachman(1990)的观点看,测试对象似乎不是验效的重点。这主要是基于测试对象被想当然地认定为处于正确的、理想的状态。但是现实中,任何一项测试都很难达到这样的状态。鉴于此,就高考英语的质量而言,验效过程应充分考虑以下四点:(1)效度是一个整体概念,尽管可以把效度细分为若干种,但我们重点考察的是测试全程的效度;(2)为了验证从语言内容到分数解释这一区间的正确性,仅仅依靠验效手段难以做到,还需要考虑信度等其他考察手段;(3)语言内容是验效的最基础部分,应涵盖到验效过程当中;(4)围绕高考英语的推断都来自于测试对象,源自其他任何测试项目的推断都是间接的,但所有推断都会影响到如何使用高考英语的问题。

高考英语是标准参照测试,测量工具是试卷,试题的正确性不仅仅体现在工具的精确方面,还应考察试卷所包含的语言内容,即测量对象,验效的过程是否完整,这样的效度研究才是正确的验效过程。针对测量工具而言,黄锐(2012)认为:

试题的正确性是指项目正确地反映测量目标所欲测量的知识、技能的程度,对它的检查主要包括:试题的技术质量和试题与测量目标之间的一致性程度。对前者的要求相一致,人们较易掌握;而对试题与测量目标之间一致性程度的评定则较困难,通常只能采用一些经验方法加以评判,有专家评判法和学生评判法两大类方法。试题的代表性要求组成标准参照测试的试题必须对测试领域总体有一定的代表性,从而使测试具有较高的内容效度。为了保证试题的代表性,标准参照测试编制中往往需要制定双向细目表;同时人们也提出了利用“重复实验”方法,来检查标准参照测试中试题的代表性(黄锐,2012:91)。

以上观点考虑到了测量工具的精确性,也兼顾到了测量对象。黄锐(2012:92)还认为,总体上说来,标准参照测试的效度验证理论还未完全发展成熟和完善,还有待于进一步的研究、拓广和深化。我们知道,高考英语受各种因素的影响,验效就是在多种因素综合作用下对高考英语得出整体推断或结论的过程。直接影响验效的众多因素之一就是测试对象,即语言内容。所以,针对高考英语,验效所覆盖的过程必须包括从语言内容到分数解释这一发展区间。

从我国的高考英语实践来判断,影响验效的因素之一的测试对象(或称考试内容)每年都会出现不同程度的质量问题,语言内容差错较多。这些严重的语言问题导致效度低下,直接关系到高考英语的整体质量。为了克服这个弊端,命题者可通过验效手段对语言内容到分数解释等加以规范和矫正,从而保证高考英语的质量稳中有升。以下我们通过高考英语试卷的分析来判断语言内容到分数解释这一区间的效度及验效问题。

四、高考英语试卷和相关建议

高考英语试卷(以下简称“试卷”)不仅是测量工具而且是判断效度的重要依据。由于大规模考试的成绩要用来做出涉及很多人的重大决策,所以考试策划者需要在试卷设计和考试任务设置时重点考虑测试信度和效度(武尊民,2002:16)。另外,由于高考英语从组织命题到分数公布过程的细节高度保密等原因,验效变得十分困难。尽管是预判,笔者认为,广大教师和学者仍然可以通过试卷本身来判断测试的效度。试卷效度如何,人们似乎有一个共识:试卷本身没有效度。例如,Sireci(2009:28)指出,纵观历史,人们有一个共识,效度不是测试的属性,只是解读某种测试用途的手段。验效就是验证从测试分数得出的预测或推断是否正确。邹申等(2005:187)举例说明,当全国高等学校外语教学指导委员会和四、八级考试办公室主办的“2003年英语教学与测试研讨会”宣布,2005年后英语专业四、八级考试将增加主观题的比重、降低客观题的比重时,与会代表的反应几乎一致是:这样一改革,专业考试的效度就提高了!代表们显然把表面效度当成了效度,而且是效度的全部。邹申(同上)指出,对于一项测试,在试卷还没有开发出来之前,无论如何是无法知道它的效度的。对于这样的事例,笔者有两点考虑:(1)试卷与考试内容密切相关,即使是试卷本身没有效度,然而从试卷的发展过程判断,即从语言内容到分数解释过程来看,效度依然存在;(2)验效需要验证测试的全过程,而不仅仅判断语言内容到分数解释这一过程,还应包括测试后如何以分数解释来做出相关决定的过程,只有这样才能保证高考英语最大程度地考察了想要考察的语言内容。

从语言内容到分数解释这一阶段,命题形式等因素与效度密切相关。理论上,效度可以被区分为多种不同的效度,其中构念效度更多地关注命题形式。构念效度为效度的一种形式,以测试项目反映其理论基本方面的程度为基础(Richards, et al, 2005:144)。但在大规模高考英语实践中,这种“分段式”的效度分析显得苍白无力,即多种效度各负其责却不连贯,依然表现为整体效度不高。伍家文(2016)认为,标准化试题中选择题比重太大,占到75%左右,无法真实反映学生的实际语言水平。孔德惠(2003)认为,针对我国大型外语考试偏重选择题的倾向,有必要大幅度地增加笔答题的比例。高考英语中的命题形式以及实践中出现的效度低下的问题,揭示出高考英语任何一个阶段都有多种因素影响效度,而这些因素的数量极难掌控。这样的现实将促使我们不得不从高考英语的全程来考虑整体效度问题。

高考英语在试卷命制阶段即确定试卷的语言内容,这一起点开始就有效度和验效的问题。国家基础教育实验中心外语教育研究中心和全国高考英语试题命题课题研究组自2014年起,连续发布高考英语蓝皮书——《2014年全国高考英语试题评介报告》和《2015年全国高考英语试题评介报告》,近期还将对2016年高考英语试题做出评价。2014年全国使用19套高考英语试题,2015年共15套试题,几乎所有试卷都存在命题错误的问题,主要体现在语言内容方面。由此我们可以看出,语言内容到分数解释区间的效度及验效问题是多么重要。那么,验效的依据从哪里来?根据最新出版的文献,效度证据主要来自:(1)试卷内容;(2)反应过程;(3)试卷的内部结构;(4)分数与其他变量关系的分析;(5)测试后果(American Educational Research Association, et al, 2014:14-19)。此外,考试成绩的全距信息可以帮助确定试卷的效度(武尊民,2002:212)。试卷内容是最早产生的效度证据,其他证据都与这一证据密切相关,试卷内容错了,其他效度证据的正确性也就无法保证。至于取得效度证据的基本途径,邹申等(2012:146,147)认为,基于试卷内容的效度证据通常通过制定足够详细的细则以及项目生成机制,并对据此生成的试卷进行评估才能获得;基于试卷内容的效度证据的采集,可以用逻辑分析法,也可以用实证研究法,还可以通过专家判断的方法。我国对高考英语的验效工作重视不够,从而导致高考英语试卷的语言内容一错再错。如果我们不能依据测试的效度来证实所做的推断是正确的,我们就没有正当的理由用考试分数来决定每个人的成败(Bachman & Palmer, 1996: 95)。大约从1915年起,教育界才开始考虑验效的问题(Lissitz, 2009:2)。可以说,我国针对高考英语的效度研究比较滞后。鉴于此,笔者提出以下建议:

1. 完善理论方面的效度界定,将效度的界定范围从分数解释提前到试题的命制阶段,即充分考虑到所测试的语言内容是否正确;

2. 效度是一个整体概念,在实践中可以分阶段验证各个阶段的效度,但对高考英语来讲,整体的效度如何应是关键问题;

3. 处理好效度和信度的关系,效度和信度密切相关,相互影响,两极分化则无助于问题的解决,信度可以是效度证据的一种;

4. 高考英语多年声称如何具备多种效度,但仍然缺乏验效方面的研究,需要推进验效以提高测试的质量;

5. 建议教育职能部门制订出符合国情的细则或量表,以确保高考英语的语言内容质量;

6. 考试内容与英语教学内容正相关,尽管绝大多数英语教师不是命题者,但可从效度的角度研究高考英语和教学的关系,以促进英语教学更加系统化。

五、结语

百余年来,效度概念的发展经历了一个曲折多变的过程,但最近十余年来,效度概念已基本稳定,没有发生太大的变化。尽管如此,我们从效度的角度考察高考英语,发现还有很多问题需要解决。效度理论研究的任务就是提出一套理论框架,研发与之相应的可操作性程序,为测试结果的解释和使用提供必要的信息,以保证测试结果解释的恰当性和根据测试结果所做出推断的合理性,从而减少或者预防解释的不恰当性以及过度或欠度推断等(邹申 等,2012:138)。本文探讨了近年来基本稳定的效度概念,认为效度的界定仍有缺陷,同时指出效度是一个整体概念,考察高考英语的效度如何,考察区间应包括语言内容(命制阶段)到分数解释这一过程,同时还要加大对高考英语全程的验效力度,从而提升高考英语的质量。2015年,《国务院关于深化考试招生制度改革的实施意见》公布后,一系列改革措施又陆续出台,为高考英语带来很多新变化,这些变化之一就是分省自主命题的数量在逐年减少。这种措施和趋势有利于从效度的角度保证高考英语的质量。从效度的覆盖区间判断,高考英语的语言内容是最根本的要素,如果这一环节出错,整体效度则无从谈起。事实上这类错误一直存在。包天仁(2016)指出,语言教学就是教授语言,那些不可量化的内容归入到了核心内容,会造成本来隐性的内容被显性化,而显性的内容却隐性化了。针对语言内容的争论还将继续,而从效度的角度考虑,既然中小学英语教学的主要目标是语言内容,高考英语为何不应聚焦语言内容?总之,受多种因素影响,提高高考英语质量的使命可谓任重道远,而加强效度研究是一个有现实意义的重要课题。



参考文献

[1] American Educational Research Association, American Psychological Association & National Council on Measurement in Education. Standards for Educational and Psychological Testing [S]. Washington: American Educational Research Association, 2014.

[2] Bachman, L. F. Fundamental Considerations in Language Testing [M]. Oxford: Oxford University Press, 1990.

[3] Bachman, L. F. & Palmer, A. S. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996.

[4] Johnson, K. & Johnson, H. Encyclopedic Dictionary of Applied Linguistics: A Handbook for Language Teaching [M]. Oxford: Blackwell Publishers Ltd., 1998.

[5] Lissitz, R. W. The Concept of Validity: Revisions, New Directions, and Applications [M]. Charlotte: Information Age Publishing Inc., 2009.

[6] Richards, J. C., Schmidt, R., Kendrick, H, & Kim, Y.(译者:管艳红,唐玉柱). Longman Dictionary of Language Teaching and Applied Linguistics (third edition)(朗文语言教学与应用语言学词典)[M]. Beijing: Foreign Language Teaching and Research Press, 2005.

[7] Sireci, S. G. Packing and unpacking sources of validity evidence [A]. In Lissitz, R. W. The Concept of Validity: Revisions, New Directions, and Applications [C]. Charlotte: Information Age Publishing Inc., 2009.

[8] 包天仁. 交际法在中国可行吗?——章兼中教授访谈录 [J]. 基础教育外语教学研究,2016(5).

[9] 桂诗春. 从社会视角看中国考试的过去和现在 [A]. 见:桂诗春. 桂诗春自选集 [C]. 广州:中山大学出版社,2015.

[10] 黄锐. 标准参照语言测试研究 [M]. 厦门:厦门大学出版社,2012.

[11] 孔德惠. 我国大规模英语水平考试偏重选择题的倾向亟待纠正(一) [J]. 基础教育外语教学研究,2003(9).

[12] 李静纯. 英语教育评价通论(上卷)[M]. 北京:北京教育出版社,2005.

[13] 美国教育研究协会,美国心理学协会,全美教育测量学会. 教育与心理测试标准(燕娓琴,谢小庆 译) [S]. 沈阳:沈阳出版社,2003.

[14] 石燕波. 近三年江苏省高考英语试题效度分析 [D]. 南京:南京师范大学,2011.

[15] 伍家文. 从高考题型变化看中学英语教学评价的发展 [J]. 基础教育外语教学研究,2016(1).

[16] 武尊民. 英语测试的理论与实践 [M]. 北京:外语教学与研究出版社,2002.

[17] 邹申,陈建林,席仲恩,党争胜,刘芹,徐永,海芳,刘宝权. 语言测试(第2版)[M]. 上海:上海外语教育出版社,2012.

[18] 邹申,席仲恩,党争胜,刘芹,徐永,海芳,刘宝权. 语言测试 [M]. 上海:上海外语教育出版社,2005.

The Issues of Validity and Validation in National Matriculation English Test

Abstract: There is a strong correlation between validity and the quality of National Matriculation English Test. The blur of the validity definition hinders both of the formulation and execution of validation. The article examines validity and redefines it so as that validity includes the first stage from the construction of the test to that of scores release beyond the whole validation process. Relevant to validity, the work of validation, which focuses on language content as a start, should be advocated and implemented.

Key words: validity; validation; reliability; test paper; language content

(本文首次发表在《基础教育外语教学研究》2016年第6期)


未经允许不得转载: 九月健康网» 效度分析成分变少了是什么原因(效度分析只有一个主成分)
分享到: 更多 ( 0)