纸笔考试智能网上评卷系统的设计和应用——智能教育应用之“考试评价”篇

时间:2018-05-08 编辑整理:汪张龙 徐俊 李晓臻 朱玮琳 来源:早发表网

摘要:文章回顾了纸笔考试评卷的发展历程,重点介绍了纸笔考试主观题智能评卷技术和扫描网上评卷技术,并基于这两大技术的融合,设计了纸笔考试智能网上评卷系统。该系统在大规模教育考试网上评卷中的应用,提升了教育考试评卷工作的质量和效率,有助于推动大规模考试评分系统的智能化升级,并为探索人工智能技术与教育考试评卷行业的应用融合形式、构建人工智能技术辅助大规模教育考试网上评卷应用模式提供参考。

关键词:智能评卷;网上评卷;考试评卷;人工智能

近年来,《国家中长期教育改革和发展规划纲要(2010-2020 年)》、《“互联网+”人工智能三年行动实施方案》、《新一代人工智能发展规划》等多项文件都明确了教育信息化、智能化的发展方向,以及人工智能在各行业应用的总体思路、目标和主要任务。在教育领域,人工智能技术正在全面、深刻地影响着教育理念和教育模式,诸如语言识别、手写文字识别、自然语言理解、智能评测等人工智能技术已在教育考试中得到了逐步应用。这些应用契合国家教育考试、考试招生制度的改革需求,具有重要的现实意义。在此背景下,在纸笔考试评卷的过程中引入先进的人工智能技术,推动智能化、信息化与教育考试的深入融合,将有效破解教育考试评价过程中面临的相关难点问题。

  纸笔考试评卷的发展历程

20 世纪90 年代之前,我国的考试判卷一直由评卷员手工完成。而在20 世纪50 年代,英国首先研发出光标阅读器,能通过光学扫描的方法识别按规定格式印刷或书写的作答标记,并通过计算机对各种作答信息进行快速准确的分析、处理。借鉴英国的经验,清华大学、山东大学于20 世纪90 年代初自主研发出光标阅读机,大规模考试评卷开始采用标准化答题卡的方式,进行客观题的作答和快速评阅,手工评卷得以进入到半自动化阶段,大幅提升了评卷效率。

随着扫描图像识别技术、网络信息化技术的不断发展,20 世纪90 年代末开始出现了扫描网上评卷的新模式——通过扫描仪对纸质答卷进行图像扫描后,利用计算机网络、图像识别技术并结合传统的评卷经验,可以实现客观题自动出分、主观题由评卷老师通过计算机进行网上评卷。目前,扫描网上评卷已经成为国内大规模考试的主流评卷方式。与传统的手工评卷相比,网上评卷既节省了考务管理环节与评卷环节的人力、物力,提高了工作效率,也为各招考机构的保密管理、分数统计和数据使用提供了方便,大幅降低了评卷成本。

智能评卷是伴随着近年来人工智能技术的快速发展而兴起的一种新型评卷模式。20 世纪90年代末,一套名为E-rater 的英文作文自动评分系统被开发出来,目前美国教育考试服务中心(Educational Testing ServiceETS)正利用该系统对管理学研究生入学考试(Graduate Management Admission TestGMAT)中的分析性写作评价(Analytical Writing AssessmentAWA)部分进行评分,并于2005 年开始应用于托福考试的作文评分。21 世纪初,英文作文的自动评分技术在美国得到了大规模的正式应用。“作文自动评分(Automated Essay ScoringAES)指通过计算机软件对学生的作文进行评分,AES 目前在美国主要用于两个方向:一是用在高风险考试中进行实际评分(一般是作为人工评分的补充,尚无完全依靠机器评分的实例);二是用在英语教学中对学生的写作能力进行诊断,提供改进意见”。在国内,北京外国语大学的梁茂成教授研究团队就中国学生英语作文的自动评分模型展开了深入研究,并结合第二语言习得理论、语料库语言学理论、测试学、统计学等,进行文本特征变量的深入挖掘、评分模型的不断优化;他们在2012 年研发的大规模考试英语作文自动评分系统经过多轮多次随机抽样的训练集,验证评分信度达到可操作、可推广的水平。21 世纪初,国内领先的人工智能技术企业如科大讯飞股份有限公司(下文简称“科大讯飞公司”)也开始了以人工智能技术为基础的计算机自动评卷技术的研究,且相关研究成果已被应用于全国普通话水平测试和多地区中、高考英语听说考试之中。

两大技术的融合

1 纸笔考试主观题智能评卷技术

纸笔考试主观题智能评卷技术是一种面向以扫描为评卷数据采集形式的纸笔类考试,由计算机完成作文等主观题智能评分的技术。目前,国内外相关作文类主观题智能评分技术的研究主要有人工特征方案和深度学习方案两个方向:①人工特征方案主要通过专家对试题评卷标准提取相关的特征进行定义,机器自动抽取一些统计性信息与这些特征进行抽象对应,并完成对相应样本的评分;②深度学习方案主要通过神经网络来自动抽取与评分准则相关的特征,并进行匹配评分。近年来,深度学习方案被广泛应用,越来越多的研究者尝试开展基于神经网络深度学习的作文题评分研究。如Nguyen 等采用双层前馈神经网络、长短期记忆网络(Long Short-Term MemoryLSTM)和双向LSTM 来表示作文,在此基础上进行评分回归模型的训练;Alikaniotis 等采用LSTM 来表示作文,并在训练时引入分数信息,对词汇的表示进行调整,得到面向评分任务的词向量表示(Score-specific Word Embeddings),从而提高了评分的准确率;Dong 等采用双层卷积神经网络(Convolutional Neural NetworkCNN),同时调整词向量表示,使其更适合评分任务。在国内的人工智能技术及应用研究团队中,科大讯飞公司率先将深度学习方案应用于智能评卷技术的研究及优化中,其研发的语音评测技术现已具备了人类专家的评分能力。

纸笔考试主观题智能评卷技术的应用流程大致如下:①通过计算机图文转写技术,将扫描图像中的手写内容转化为计算机可处理的信息;②计算机对全部考生的作答内容进行特征提取与聚类,输出典型样本集合,由充分了解并能规范执行评分标准的评卷专家完成定标评分,进而训练计算机学习评分专家的评分数据,使计算机掌握各题型的评分标准并具备评测主观题的能力;③经过定标训练后的计算机从主观题评分的不同维度(如词汇丰富度、局部连贯性、句法正确性、篇章结构等),快速高效地对中、英文作文等主观题进行自动评分与批改。目前,科大讯飞公司研究团队在基于扫描图像的中、英文手写文本识别转写方面的准确率均已超过95%,且“计算机在多项不同教育考试的语文、英语考试主观题(包括作文)评分上已达到现场评卷教师水平,可以满足大规模考试的实际需要。此外,计算机系统不仅能够进行智能评分,还可以从语法、用词、内容表达等不同维度给出诊断分析报告,实现自动化作文批改”。

2 扫描网上评卷技术

扫描网上评卷技术主要指利用高速图像扫描与识别技术、网络技术、大型分布式数据库及大容量智能化的网络存储等先进的电子技术和计算机技术,实现计算机辅助评卷。扫描网上评卷技术的应用流程大致如下:①通过扫描设备,将考生各科目的答题卡扫描到数据库;②评卷系统根据设定的客观题标准答案,自动评出客观题分数;③裁切主观题答题图像,由评卷管理人员创建评卷员账号、设置科目主观题参考答案、裁切图片、处理异常评卷、设置误差控制参数等,系统根据指令,将答题内容通过网络传输给分布在各个终端的评卷员;④评卷员登录系统,通过浏览器查看考生的答题内容图像,根据评分标准评出分数;⑤系统自动保存结果,对主观题、客观题的分数进行合并计算,最终得出考生的考试成绩。值得一提的是,在网上评卷过程中,评卷系统还可同时实现对评卷教师评分过程、进度及结果的实时监控。

3 两大技术的融合

纸笔考试主观题智能评卷技术具有高效、精准完成大规模数据检测以及长时间稳定执行专家评分标准的显著优势;而扫描网上评卷技术经过多年在多类大规模考试评卷应用过程中的不断完善,其评卷组织模式具有较好的灵活性。这两大技术的融合,能有效提升网上评卷的评分效率和评分质量,实现考试评卷的智能化升级。两大技术的融合主要发生在以下两个阶段:

1)扫描阶段两大技术的融合

在扫描阶段,扫描设备对答题卡进行图像采集,智能评分服务与扫描管理端进行数据交接,接收扫描设备采集的答题卡图像。在接收的过程中,智能评分服务实时提取图像的轮廓曲线、灰度值等关键信息,进行图像是否为空白的判断;在扫描的过程中,智能评分服务实时、高效、精准地输出筛选出的空白题信息。在图像数据传输至网上阅卷系统之前,由扫描管理系统对筛选出的空白题做评分配置后,便可不再将空白题数据下发给评卷员进行评分。

2)网上评卷阶段两大技术的融合

“文本相似度计算是各种文本挖掘技术的基石,有了文本相似度的定义就有了各种文本比较的理论依据。”在网上评卷阶段,基于深度神经网络的手写识别技术可对考生答卷扫描切图中的文本进行快速、精准的识别。当评卷管理系统获取到考生的主观题目作答内容并配置相关的评卷管理参数之后,可通过系统软件自动对比计算机转写结果与试卷题干、网络范文等外部文本来源的文本相似度,并精准计算出两者的相似比例,最终输出处于一定相似度阈值范围内的疑似异常答卷。此后,评卷管理员根据评卷组织模式需要,通过评卷管理系统进行应用配置,并在人工评卷的过程中以同步的形式对评卷人员进行内容疑似异常答卷的评分预警。

在实施网上评卷的过程中,可以根据不同考试项目所采用的评卷模式,将智能评分结果与人工评分工作进行融合,形成多样化的人机协作智能评分模式。比如,在主观题采取单评模式的考试中,可在人工评分的同时增加智能评分作为二评分,并进行人机评分结果对比,将大分差数据交由第三者进行仲裁,以保障和提升评卷质量;在主观题采取多评模式的考试中,可用智能评分结果代替其中的一评,最终进行分数的合并汇总,以降低考务的组织难度、提升评卷效率;对于教育类高利害考试评卷,则可将符合学习评卷专家标准的智能评分结果作为人工评分质量的第三方监控指标,以确保人工评分的质量。“主观题评卷技术通过对不同考试、不同试题专家评分标准的学习、调整和程序化设计,使得评分标准可以在更大范围内被‘具备专家评分水平’的计算机标准化地执行和实施。”而计算机智能评分结果的客观性和公正性,将有助于最大化实现考试的公平、公正。

纸笔考试智能网上评卷系统的构建

1 纸笔考试智能网上评卷系统的设计

纸笔考试主观题智能评卷技术与扫描网上评卷技术在数据层、服务层和应用层的深度融合以及相关数据的统一管理,是技术推动应用革新的基础。本研究基于扫描阶段和网上评卷阶段两大技术的融合,设计了纸笔考试智能网上评卷系统。

1)数据层

数据层主要通过扫描评卷数据库,支持服务层和应用层对数据的读取或写入。扫描评卷数据库分类存储扫描、智能评卷各阶段的数据,如扫描图像、人工评分轨迹、图文转写结果、智能评分结果以及各类异常检测结果等。

2)服务层

服务层是数据层与应用层之间的逻辑层,主要提供应用层所需的检测、转写及评分等核心技术服务,具体包括:OMR 识别服务,实现对客观题填涂答案信息的识别。②图文识别转写服务,实现对答卷扫描图像中文本的智能识别转写、评分数据预处理。③图像检测服务,实现对扫描图像数据质量的检测,可筛出空白、重张等异常数据。④内容检测服务,基于图文识别转写结果,将考生作答内容与评卷系统输入的样本进行相似度检测,查出内容高度相似的作答样本,并基于语义分析检出离题作答样本。⑤智能评分服务,通过自动聚类,筛选出典型样本集合;人工评分客户端可获取到该样本集合,之后组织人工评分;智能评分服务基于人工评卷客户端反馈的典型样本集合中的人工评分结果,自动训练智能评分模型,进而实现对考生差异化作答样本的智能评分,最终根据应用层的参数配置输出检测结果。此外,服务层具有较强的拓展性,可根据不同考试评卷需要提供其它服务,如条形码识别服务等。

3)应用层

应用层主要提供两大功能系统:一是实现纸质答卷数据转化为计算机可处理的图像数据的智能数据采集系统,二是基于图像数据进行评分和其它评卷管理的智能评卷系统。

①智能数据采集系统。该系统包含扫描管理端和扫描客户端,实现纸质答卷图像的高效采集,并支持扫描图像的智能化检测和数据校验。在纸质答卷的扫描过程中,扫描管理端可配置启动智能图像检测服务,依据扫描客户端对裁切区域的标定结果,对扫描图像自动进行版面分析、灰度值分析等;同时,综合分析结果,高效、精准地校验扫描数据,筛查出空白题、重扫异常图像等。该系统采集的数据与经过图像检测服务筛查出的异常扫描图像数据,作为智能化评卷系统的输入数据,待考试管理机构在扫描之后的评卷环节进行差异化处理。

②智能评卷系统。该系统支持各类教育考试的不同评卷模式配置,并在此基础上通过智能评分服务,进行主观题的手写内容识别、内容检测、智能评分,形成人机协助的新型评卷模式。该系统由以下部分组成:评卷管理端——主要实现对智能评分任务与操作流程的配置、管理;智能服务管理端——实现对图文识别转写、智能评分、文本相似度检测等各类服务的进程管理和监控;人工评卷客户端——主要对智能评分过程中需要人工处理的评分数据进行评分、复核等操作提供支持;作业调度——实现对智能评分服务所处理的大数据量作业内容的进程控、资源分配;误差引擎——实现对人人、人机评分误差的自动化分析;质检功能——基于人工评分轨迹与图像检测、内容检测、智能评分的结果,提供评卷质检的参数配置与检测分析等功能。

2 纸笔考试智能网上评卷系统的应用流程分解

纸笔考试智能网上评卷系统的应用流程主要分为五个阶段:数据准备、扫描、主观题数据预处理、主观题评分、结果汇总

纸笔考试智能网上评卷系统的应用

1 应用情况

目前,人工智能技术应用于大规模考试已积累了不少成功案例,如科大讯飞公司开发的智能评分系统已被应用于广东高考英语听说考试、江苏省初中英语听力口语自动化考试等,并取得了良好成效。作为国内人工智能技术的领军企业,科大讯飞公司与教育部考试中心于2016 年成立联合实验室,主要开展人工智能技术在教育考试领域的应用研究。随后,联合实验室基于多地区各类型考试数据,对纸笔考试智能网上评卷系统及其应用效果进行了持续优化。

2017 6 月,联合实验室在某省大规模教育考试网上评卷过程中开展了纸笔考试智能网上评卷系统的应用实验。本次实验在正式考试评卷期间,与正式评卷同步进行,是一次具有突破性的创新实验。从扫描图像数据交接至评测结束,本次实验过程用时5 天,完成两个科目近百万份作文题样本的智能评分,并在智能评分的过程中基于图像分析和识别转写结果,将语文作文的1.7 万余份非缺考空白卷、200 余份高相似度异常作答情况和英语作文的2.4 万余份空白卷、1400 余份高相似度异常作答情况予以检出。

2 应用效果

本次实验随机抽取了500 份答卷数据进行人工手动转录,并对比计算机识别结果进行识别准确率分析。经统计分析,中、英文手写字符的识别率均达到97%以上,满足地区考试院实现自动评卷的基础要求。本次实验将最终的计算机评分结果与现场人工评分结果进行了对比分析,得出结论:语文作文机评分与最终报道分的评分一致率达到了95%以上,与现场人工两评的一致率几乎相等;英语作文机评分与最终报道分的评分一致率达到了92%以上,略高于现场人工两评的一致率,说明计算机评分具有较高的评分准确性。

需要说明的是,在本次实验中,地区考试院有选择性地对抄写题干内容的70 多份语文作文样本进行了反馈,这70 多份语文作文样本均由学科评卷组进行质检审查和仲裁评分,仲裁结果为:这批考生的语文作文成绩均进行了1530 分的向下修正。同时,地区考试院也对1400 余份英语作文各类异常样本通过网上评卷系统进行了分数检查,确认这些样本在人工评卷时都已经进行了合理评分,所以未反馈给学科评卷组进行评分修正。

小结

人工智能技术的快速发展,对教育考试领域的影响也不断扩大。通过人工智能技术学习专家评分标准,计算机凭借较高的评分准确度和稳定性,有效提升了教育考试评卷工作的质量和效率。在未来,随着教育改革和考试改革的不断深入推进,综合类素质考试将被越来越广泛地推行开来,基于人工智能技术的计算机智能评测技术也将更大地发挥它的价值,辅助人工完成高水平的评卷工作。


职称
论文

期刊
发表

加急
见刊

写作
咨询

课题
专答

编辑
顾问

关注
我们

返回
顶部