登陆注册
18663800000043

第43章 写作测评(1)

对学生获得的知识进行测量和评价是教学研究的一个重要内容。作文评价是作文教学的一个重要环节,是作文指导的继续。中国是一个文章大国,从读文章、写文章的大量实践中去领悟和运用写作的法则,是经验型的,这也是传统写作教学所走的路,然而,这也给写作教学测量带来了困难。中文的写作特别地具有东方文化的特点:综合性和模糊性。有些观念,可以意会,而运用之妙存乎一心,难以准确测量。我们既不能削足适履,生硬地与西方模式“接轨”,又要对这些传统经验进行科学研究,发现合理的因素。如果说“测验”和“考试”一般只是对学生的知识水平的数量化,那么,“测评”中的“评”就包含了“评价”,即进行价值判断,体现了定量和定性分析的整合,是教育测量的高级层次。

写作测评是测验与评定的总称。有关测验的定义,尚无统一规定。

我们认为,测验就是根据客观的标准化了的程序来测量个体的某种心理与行为,以判定个别差异的工具。因此,写作测验就是编制相关的各类题目,借以测定和区分学生写作能力的一种手段。写作评定是根据写作活动产品或根据教师平时对学生的了解,来对作文判定分数或等级。对写作评定的数量描述作出价值判断(如该生成绩优或劣),则相当于教育测量学中的“评价”。

一、写作测评的历史

教育测验与心理测验所要测量的内容不尽相同,但是所依据的基本原理和方法是一致的。因此,教育测验深受先行发展的心理测验的影响。

语文测验则以教育测验的基本理论为指导,语文测验又反过来丰富教育测验理论,推动整个教育测验科学的发展。

(一)20世纪前的写作测评

19世纪末20世纪初,欧美国家在教育科学化运动的推动下,针对论文式测验取样片面、评分不客观、主观随意性大等缺点,对考试进行了客观化的研究,渐渐形成教育测验运动。1864年,费希尔(G.Fisher)设计了一个《量表集》,内容包括:作文、书法、拼写、文法、历史、绘画、自然、算术等学科的学生作业,按1(5等级评定成绩。1895(1905年,美国的莱斯(J.M.Rice)主张用划一的测验考查来比较各校学生的成绩,于是编制了《算术测验》、《拼写测验》和《语言测验》。其中《拼写测验》要求学生默写50个生字;《语言测验》选编了给学生朗读的文章,要求学生根据原文大意写一篇文章,然后依据写就的文章的语句及篇章结构来确定分数。

莱斯曾用这些测验测量过数万名学生。当然,这还不是严格意义上的学科研究,评分中尚存在较大的主观成分,但还是开了写作测评研究的先河。

在各个学科的测评中,写作测试是最困难的,也是一个世界性难题。

因为它所测评的学生的精神产品——文章。通过文章来测量学生的写作水平有关极大的主观随意性。特别是在大规模考试(如高考)中,对这类随意的控制是很困难的。人们逐渐认识到了主观性试题的评分误差,注意到了写作测评中的问题。

1904年,桑代克发表了《心理与社会测量导论》(又译《精神与社会测量导论》)一书,提出“凡是存在的东西都是有数量的,凡是有数量的东西都是可以测量的”着名论断,系统地介绍了统计方法及编制测验的原理。

1905年,比纳和西蒙发表了世界上第一个智力测验《比纳(西蒙量表》,为标准化测验开辟了新的道路。1909年,桑代克根据卡特尔的等距离原理编制了书法量表,这是世界上第一个用科学方法编制的语文测验工具。

这一成果引起了人们对编制作品量表的兴趣,并提供了可资借鉴的方法与技术,以后作品量表(包括写作量表)的编制和应用方法均与该量表类似。不久,桑代克还编制了《拼字测验》、《作文量表》、《图画量表》等标准测量工具,推动了包括语文测验在内的整个教育测验的发展。1919年以后,教育测验趋多,语文测验有希利格斯的《作文量表》,白根汉的《拼法量表》,爱里斯的《书法量表》等等。

(二)20世纪后的写作测评

Hillegas(1912)编制了世界上第一个正式作文量表,即《儿童英语作文品质评定量表》,为后来研究者提供了参照作文量表的样式,开作文标准化测验之先河。此后不久,Trabue和Thordike于1914年分别编制了对Hillegas量表的补充版,适用对象均为4(12年级。同年,Ballon为了克服Hillegas量表只适用于一种文体之弊端,编制了包括记叙、说明、描写和议论四种文体的《哈佛(牛顿量表》(Harvard‐Newton),其样篇选自1-8年级,每种文体各有6个样篇,分数采用百分制。其他量表还有,《霍德森英语作文量表》(Huddson English Composition Scale,适用对象为4-12年级),vanWagenen编制的《英语作文量表》,《惠林写作测评量表》(The Willing Scalefor Measuring Written Composition)和《普莱塞英语作文诊断测验》(Pressey Diagnostic Testsin English Composition)。

其中,惠林量表是当时美国通用的作文量表。该量表有8个样篇,适用于4(8年级,成绩评定分故事(内容)分数和形式分数两项,其计分原理依据正态分布,取代表正态分布中的两个端点及其中间距离相等的六点,这较Ballon的量表又前进了一步。惠林作文量表的另一特点是,为保证测评结果可靠性,提供了许多作文题目和收集作文的方法,可使用这些作文题控制写作情况。

20世纪20年代,Lewis编制了《英语特殊文体作文测评量表》,该量表主要用于五种应用文的测评:订购货物的函件,应征职位的函件,叙述性社交函件,议论性社交函件,便条。量表可以测评说明、叙述、描写等三种文体,评分时对照相应文体样篇就可分别计算出三部分成绩,其比例规定如下:

(1)“思想内容”(Thoughtcontext)分,占4/7。

(2)“文体结构”(Structure)分,占2/7。

(3)“文字技巧”(Machincs)分,占1/7。

该量表具有诊断性,设计者为了提高作文的评定信度,在量表中附有练习文章,供教师把练习文章对照量表样篇评分,看自己评分是否合乎量表拟定的标准分值,以此帮助教师更好地使用作文量表,准确地把握评分。

20世纪初,我国在测验方面开始引进国外的理论和方法、技术。到了20-30年代,很多学者着手编制测验,其间美国教育测量专家麦柯尔曾来华指导。1922年后,教育测验运动在中国推广开来,有关语文的测验主要有俞子夷的《小学国文毛笔书法测验》,这是我国最早的标准化测验,还有艾伟、王金桂合编的《小学国语默读测验》,艾伟、杨清的《小学国语默读诊断测验》,陈鹤琴的《中小学默读测验》和《文法测验》,另外,还有俞子夷的《小学缀法测验量表》、周学章的《作文测验衡》、廖世承的《中学文法测验》和《语文常识测验》等。在30-40年代,测验在我国曾风行一时,相对而言,对语文测验贡献最大的当推陈鹤琴,其编制的测验涉及默读、默字、识字、作文、文法和书法各领域。

20世纪60年代以后,西方国家的一些大学和研究机构编制出版了一些作文量表,引起了教育界的重视。这不仅提供了一个测评工具,而且还可用于对教师的作文评分进行培训,如1960年美国芝加哥英语教师联合分会编制了《高中学生作文评价量表》(A Scale for Evaluation of High School Student Essays)。该量表收集了28篇作文以解释对15岁学生作文评定的各项标准,用以评定中等教育毕业证书考试所设想的写作水平。这些作文样篇从A到E级程序排列,对练习作业的评定工作,第一等的成绩有一个样组,以便保持评定标准的一致性。

近年来,美国常用的标准化作文测评量表有美国教育测验服务社编制的《STEP短文测验》和《戴里奇服务社作文量表》(Diede rich EST Composition Scale)。《STEP短文测验》要求学生在30分钟内根据特定题目写文章,评分时把每个学生的作文与已有同样题目的样篇比较,给予7级分数中的某一级。总分中“思想和内容”占50%,“文章风格”占30%,“文字技巧”占20%。

二、写作测评的基本要求

在编制一个教育测验时,必须进行标准化,写作测评也不例外。在标准化过程中,为了提高测评的有效性和可靠性,就不能忽视对信度、效度等的检定。

(一)写作测评的效度

效度是指测评能够真正测到其所要测量的东西的程度,即所要测量的某种行为特征的正确性。越是正确地抓住目标,这个测验的效度就越高,也表明所测量的结果越能代表所要测量行为的真正特征。写作测评效度,要求能测出和评出作文能力,而不是识字或阅读能力。它有内容效度、效标放度和结构效度之分。内容效度要求测验和评定项目囊括所有重要的内容。效标效度,要求测评结果与某一客观的能真正反映学生作文能力的成绩一致,它通常求得两者相关系数来说明。结构效度,要求测评结果能说明预想(理论)的写作能力结构。在统计学上,因素分析法能对它进行圆满的解释。因素分析即把一些具有错综复杂关系的因素归结为数量较少的几个综合因素(公因素),并用这少数几个因素解释能力结构。效度系数,一般要求在0.60以上。

为了提高效度。写作测评应仔细分析作文教学目标,研究作文能力结构;采用多种题型,扩大取样覆盖面;试题要求必须明确,评定标准必须清楚。

(二)写作测评的信度

信度是指测验的可靠程度,表现为测验结果的一致性、再现性和稳定性。写作测评的信度要求同一测验在不同时间施用,所得结果一致。同一作文,不同的人评定或同一人在不同时间里评定,所得结果尽可能相近。

考验写作测评信度的方法有再评法、多评法、重测法和分半法等。再评法是指两位教师同时评分,或一位教师两次评分,求得相关。多评法是指请多位教师独立对一批作文评分,求得肯德尔和谐系数。作文测评的信度系数,若达0.70以上,说明测评结论可靠。重测法,就是把一个测验在适当的时间间隔里施行二次,求得分数相关。分半法就是把测验分成性质相同的两半(如按奇偶题分),求得两部分成绩相关。

信度与效度有一定的关系,可靠的不一定有效,但有效的一定可靠。

信度只表示测验本身的可靠程度,而效度则涉及到测验所要测量的是否有效。为保证信度,应采取系列措施,如试场和阅卷场所要保持安静;所有的应试者应具有均等的条件;训练评阅教师统一执行评定标准等等。

(三)写作测评的区分度

区分度为试题能够区分出学生高低水平的程度。写作测评要求能鉴别出学生的作文能力,拉开分数距离。考验区分度可采用两端分组法,即计算高低两组受试者通过该题的比率,也可以求得各项目与测验总分的相关,求得内部一致性。当测验项目少,各项目占分比重大时,应对项目与总分相关的重叠部分进行矫正。区分度系数一般要求在0.30以上。

区分度与难度有密切的联系,难度为0.50左右,区分度最大;当难度为0.1时,则没有区分度。

(四)写作测评的实用性

实用性要求测评所需的时间、人力为客观条件所允许。一个完善的方案,如果难以实施和推行,那么就没有实用价值。因此,无论是写作测验,还是评定、解释分数等,都应简便,不易过分繁杂,耗费太多的时间和精力。写作量表为了便于分数解释,应提供常模资料,如年级常模、年龄常模、百分位常模以及Z分数和T分数常模等。这样,学生的任何一个分数或等级,只要与常模比较,就可推知学生在某一集体中的位置。

一个好的测验,其测验的内容和困难度要适合于所测的对象,并且具有较高的信度和效度,但在编制一个新的测验时,往往没有直接决定效度的外部基准效标,因此,最初应把注意力放在信度上。下面这些条件,可以提高写作测验的信度:

(1)问题项目数多,可以提高信度。

(2)由同质的项目所构成的测验(Homo geneous test),比异质项目所构成的测验信度高。

(3)项目的辨别力大,信度也高。

(4)由困难度适中的项目(通过率平均在50%左右)所构成的测验信度高;而由特别容易的项目和特别困难的项目所构成的测验信度低。

(5)对各种能力程度不同的人的测验结果,信度高;而对能力同等的人的测验结果,信度低。

(6)取分越客观,信度就越高。

(7)二者择一的回答(即正误选择或是否选择),不如多肢选择回答(多重答案选择法)信度高。

(8)意思不清、容易误解的问题,回答的指示不明确的问题,信度低;反之,信度高。

同类推荐
  • 传媒殖民政治

    传媒殖民政治

    我们正在成为政治上发生的哥白尼式转折的证人政党民主为媒体民主所取代。谁掌握了媒体,谁就掌握了政治。本书提出并试图回答这一问题:长远来看,媒体民主是否会沦为事件管理和表现效果之表层逻辑的独裁者?或者,是否有可能发展出对于政治交流的更可靠的认识?
  • 思考世界的100部学术名著(上)

    思考世界的100部学术名著(上)

    人类的历史,犹如一串华美的项链,是由无数大大小小的事件连接而成的。那一个个辉煌的瞬间,便是历史链条中璀灿的宝石与珍珠,它熠熠生辉,警示着后人。
  • 国际金融作业集

    国际金融作业集

    国际金融是国际经济与贸易专业的一门主修课程。教学的主要目标是让学生掌握国际收支、外汇汇率、国际金融市场、国际金融体系、外汇、外债管理的基本概念和原理;掌握外汇交易业务、国际融资业务和外汇风险防范的知识和技能;系统而准确地理解西方国际收支理论、汇率理论和国际储备理论。
  • 新课程与教师角色转变(教师继续教育丛书)

    新课程与教师角色转变(教师继续教育丛书)

    本书主要内容包括:教师角色理论、新课程中的教师角色定位、教师专业发展、教师培训的基本理论、校本教师培训。
  • 中国报业集团法人制度变迁研究

    中国报业集团法人制度变迁研究

    国内第一本从民商法学视角考察中国报业集团法人制度变迁史的学术专著。全书以新闻出版改革为背景,以转型期各报业集团法人定位的不同时段为经,以各家报业集团在三个时间段的不同表现为纬,深入细致地论述中国报业集团从事业法人走向企业法人的转变原因、发展进程、组合模式、未来发展等方面的异同,旨在探寻建设中国一流报业集团、实现中国文化产业腾飞的发展路径。对于深度了解当代中国报业集团的体制机制改革,为中国报业集团的做大做强提供理论支撑,对丰富和发展中国报业理论有一定意义。
热门推荐
  • 一朵桃花飘出墙

    一朵桃花飘出墙

    大名鼎鼎的神偷,穿越到一个陌生国度,被误以为是‘刺客’。从此大神偷成了过街老鼠,只能呆在黑暗中独自舔着伤口。好不容易榜上了傻王爷,却不慎怎么入了督公的眼。督公眉眼上扬:入了本督公的眼,谁也不能碰,便是皇上如此,更何况一个王爷。——————————————————他要的是天下江山,而她要的却给不起。苍茫浮世,孤身过客。终究是要选择不同的道路。——————————————————【此文讲的是一个萝莉妹纸被厂花xx的欢脱故事……】
  • 八极明仙

    八极明仙

    八卦,乃天地之本源,构造了这个大千世界。然而人类的贪婪、色欲、暴食、嫉妒、懒惰、傲慢、暴怒这其中原罪生成了魔,八极明仙由此诞生,在千年中战斗不休。在一座江南的水乡中两者之间的斗争又一次拉开了序幕……
  • 女皇是怎样炼成的

    女皇是怎样炼成的

    猛男?型男?美男?正太?不好意思,在姐眼中,只有弱受男!敢问这世界上,有什么比征服猛男更有成就感?敢问这世界上,有什么比拥有一个完美无暇的型男更加幸福?敢问这世界上,有什么比带着一个美男逛街更加大增脸面?敢问这世界上,有什么比调教正太更加缓解压力?不好意思,这四种男子,姐后宫成千上万.想要吗?来吧,在这里,你就是女皇!
  • 崇祯帝的户部尚书

    崇祯帝的户部尚书

    1629年这一年,北京紫禁城,崇祯的炼狱版“拯救大明”才开局还没刷出debuff歪脖树,后金皇太极三路破明。这一年,威斯敏斯特宫,日不落帝国的查理一世叫嚣着解散议会,还没被拿着被权利请愿书的议会按在地板上摩擦。这一年,日本天守阁,后尾水天皇在征夷大将军德川家光羞辱下退位。而琉球尚宁王还在承受萨摩番大名淫威。倪睿通过一张殉国名臣的画卷走入这个时代,抚流民,虐晋商,西和诸夷东抚朝日,逆战满清,发起大明版经济战争。
  • 澳门沉浮

    澳门沉浮

    很多人幻想在澳门瞬间富贵。但:不可能。我们的灵魂是平凡的,自由的。在无尽的奢侈之后,会变的贪婪,无所欲为,不可掌控,然后失去自我,裸露出满身的丑恶,将血淋淋的魔手伸向所有与自己有关的人,向他们一步步威胁,一次次拖累,最后众叛亲离,兄弟反目,妻离子散,家破人亡。这里繁华,然而处处暗藏杀机,暗流涌动,最终会让你背负巨额高债,在无力回天时,选择死无葬身之地,留下一个满身鲜血的躯体,被丢出关口,丢进万劫不复。此时的你已经失去了之前美丽的一切,仅剩一个魔鬼幽灵在游荡,在每一个哀嚎而恐惧的夜里偷生,在孤单里落幕。如果可以选择,请放弃澳门,好好陪你的爱人,孩子,父母,让他们平静的生活,那才是最幸福的时刻。
  • 口袋妖怪狂本无尊

    口袋妖怪狂本无尊

    我很狂,但我低调,我很狂,但我面瘫,我很狂,但我冰冷。我本无情,却遇到蝶升情,我本无心,却遇到过去鬼。我本无爱,却遇冤家龙来,我本无思,却遇蝎同相怜。
  • 阴阳怪谈

    阴阳怪谈

    阴差阳错,王可可与鬼冥婚,冥婚之夜她在枕头底下放了剪刀,果然没有见到他!从此她整日提心吊胆,就在她渐渐遗忘了他的时候,午夜惊魂,她被一个男鬼抚摸全身。桃木剑,剪刀,五帝钱,都没用了……从此,王可可被扯进了一场延续了几十年的阴谋之中。
  • 娶妻纳妾

    娶妻纳妾

    游子百小川,先后结识丫鬟飞飞,商家女金宝,千年猫妖墨染,花仙紫妍,将军之女秋雁,武先生司徒彩凤,穿越女碧莲,魔女月白,黑族长老之女牡丹,公主玉曦。因勤奋,百小川得到了去白鹤书院读书的机会,获得第一名,取得到京城读书的资格。因巧遇旱灾,京城读书推迟一年。百小川和几位女子,来到了黑族,帮助黑族摆脱了饥饿贫穷,父子相杀,骨肉分离的几百年来梦魇般的苦难生活。他们找到了一块世外桃源。在这里,百小川带领着黑族建设山庄。后来,牡丹被南朱国密探抓走了。百小川,又和四国斗智斗勇,救出牡丹,收服南朱国大将朱峰,奇袭南朱国,占领东青国,揭开四国和黑族的惊天的秘密。后来,百小川统一四国,当上帝王,与十位女子喜结良缘。
  • 花朵心钻寻回记

    花朵心钻寻回记

    王晓琪,沈安如,沈雅如,林若拉四个少女穿越到了心钻王国,要寻找十颗花朵心钻才能回去。她们最后能回去吗?求推荐票O(∩_∩)O(^_^)
  • 狸心记

    狸心记

    一个从小在富贵家庭的背景下长大的少女,有着十分怪异的脾气和喜好,她讨厌男孩子,却喜欢女孩子,虽然长得漂亮,又有几分潇洒,但是她的性格不仅让男孩们对她望而却步,而且也让大多数女孩子都十分讨厌她,可是她孤芳自赏,很少在意别人的看法,直到遇到了另一个女孩子,这个温柔且笑起来有两个酒窝的美少女却让她从此陷入一种对她的痴迷之中。可没想到这个女孩十分受到男孩子的欢迎,因此导致她更加地讨厌男孩子,直到一个清秀俊俏的少年才子出现在她的身边时,他的漠然、安静和文采深深地吸引了她,她才开始思考自己对性别喜好的思考,而这种思考直到离别时才明白这叫做爱,真正的难以割舍的爱。