一种作文类文本智能评分方法、系统与设备

文档序号：1922142 发布日期：2021-12-03 浏览：17次 >En<

阅读说明：本技术 一种作文类文本智能评分方法、系统与设备 (Composition text intelligent scoring method, system and equipment ) 是由马磊郭成锋袁峰邢金宝薛勇赵瑞瑞于 2021-11-08 设计创作，主要内容包括：本发明提供一种作文类文本智能评分方法、系统与设备,属于考试测评技术领域。对待评分的作文文本进行体裁判别,将输入文本分类至议论文、散文、说明文、记叙文和应用文共五个类型中的一个类型；依据输入文本的体裁类别,选择特定的判别模型对输入文本进行基础等级判别,输入的作文文本被判定为A、B、C和D共四个等级中的一个等级；依据其他评分规则进行加分或扣分,输入作文文本的最终分由基础等级分值和浮动分值共同构成。本发明能够实现对多种体裁作文的智能判分,具有较高的评分准确度和评分效率。本发明对作文的评价从体裁、主旨、思想内容、语言表达和层次结构等多个维度进行考察,并将多个维度进行综合评价之后形成了一个最终分。(The invention provides a composition text intelligent scoring method, system and device, and belongs to the technical field of examination evaluation. Judging the genre of the composition text to be scored, and classifying the input text into one of five types including an agenda paper, a prose, a description text, a narrative text and an application text; selecting a specific discrimination model to perform basic grade discrimination on the input text according to the genre type of the input text, wherein the input composition text is judged to be A, B, C and D, and the four grades are one grade; and adding or deducting according to other grading rules, wherein the final grade of the input composition text is jointly formed by the basic grade value and the floating value. The invention can realize intelligent judgment of various genre compositions and has higher grading accuracy and grading efficiency. The invention inspects the evaluation of the composition from multiple dimensions such as the genre, the subject, the thought content, the language expression, the hierarchical structure and the like, and comprehensively evaluates the multiple dimensions to form a final score.)

一种作文类文本智能评分方法、系统与设备

技术领域

本发明涉及考试测评技术领域，尤其涉及一种作文类文本智能评分方法、系统与设备。

背景技术

作文作为一种对考生语言、逻辑、思想等综合能力进行考查的题型，具有很大的开放性和自由度，但同时又要求与特定主题相关联。传统的作文评阅方法一般使用浅层分析的结果构建特征，如文章的长度、段落数、词汇丰富性等，依据这类特征判别一篇文章的优劣。不难发现，很多特征与人工评价作文时所考察的维度和深度相距较远。作文的评价一般从体裁、主旨、思想内容、语言表达和层次结构等多个维度进行考察，但是各个维度又不是孤立的，它们彼此联系，相互影响。因此利用机器模型孤立地对作文的多个维度进行测评，会产生较大偏差。

作文自动评分的另一个难题是不同体裁的作文的侧重点是不同的，比如议论文需要论点、论据和论证，要求语言准确，层次分明，结构严谨；记叙文则需要交代事情发生的时间、地点、人物等等，要求语言流畅，结构清晰。单一的机器模型是很难同时对不同体裁的作文给出准确客观评价的。

发明内容

为了克服上述现有技术中的不足，本发明提供一种作文类文本智能评分方法，方法能够实现对多种体裁作文的智能判分，具有较高的评分准确度和评分效率。

方法包括：

S1、作文体裁判别模块对输入的作文文本进行体裁判别；

S2、作文基础等级判别模块依据输入文本的体裁类别，选择预设的判别模型对输入文本进行基础等级判别；

S3、浮动分值判别模块依据预设评分规则进行加分或扣分；

S4、合分模块基于合并基础等级分值和浮动分值形成输入作文文本的最终分。

进一步需要说明的是，步骤S1中，作文体裁判别模型的训练方式为基于预训练语言模型的迁移学习方式，具体实施步骤：

S11，收集大量不同类别的作文语料，对作文的体裁类型进行标注，形成训练数据；

S12，基于预训练语言模型构建作文体裁判别模型，模型包括：语义抽取网络层和分类预测层；

S13，在已标注的作文语料上进行作文体裁判别模型的精调训练。

进一步需要说明的是，步骤S2中，作文基础等级判别模型的训练方式为基于预训练语言模型的渐进式迁移学习方式，具体实施步骤：

S21，收集同一体裁已标注的作文数据，将分值映射到A，B，C和D四个基础等级类别上，结合作文的题目要求共同形成训练数据；

每条作文数据的形式为：作文题目要求的文本以及考生作文文本；

除真实数据外，通过将不匹配的作文题目要求和作文文本结合的方式构造一部分类别为D类别的伪数据；

S22，基于预训练语言模型构建作文基础等级判别基础模型，模型包括：语义抽取网络层和分类预测层；

S23，在大量已标注的作文数据集上进行精调训练，训练时对全部语义抽取网络层和分类预测层的权重进行更新，训练完成的模型为作文基础等级判别领域模型；

S24，在特定的考试测评任务中，收集预设数量专家定标的作文数据，在作文基础等级判别领域模型的基础之上再一次进行模型精调训练，训练时保持语义抽取网络层的权重不变，对分类预测层的权重进行更新，精调完成的模型为作文基础等级判别任务模型。

进一步需要说明的是，步骤S3中浮动分值判别模块提供以下内容的判别：

S31，统计词汇丰富度，对每一篇待评分作文文本进行分词并去掉停用词，然后统计词汇量，并除以题目要求最低字数进行归一化，对所有待评分作文的相对词汇丰富度进行降序排序，前N名待评分作文的相对词汇丰富度定为A级别，后M名待评分作文的相对词汇丰富度定为C级别，中间待评分作文的相对词汇丰富度定为B级别，每个级别代表的分值以及每个级别的人数比例则根据具体考试设置；

S32，检测篇章顺畅度，篇章顺畅度的检测包括字、词错误统计和语言表达顺畅检测，对于字、词错误统计每出现一个错误点所扣分值以及最大可扣分值根据具体考试的评分细则设置；对于语言表达流畅度则分为A、B和C三个等级，每个级别代表的分值则根据具体考试设置；

S33，统计字数，字数不足时的扣分规则根据具体考试的评分细则设置；

S34，检查题目，题目缺失时的扣分规则根据具体考试的评分细则设置。

进一步需要说明的是，构建篇章顺畅度检测模型，构建的建篇章顺畅度检测模型包括：语义抽取网络层、条件随机场层和顺畅度分类层。

进一步需要说明的是，合并基础等级分值和浮动分值得到输入作文文本的最终分；

最终分最低不低于本等级最低分数，最高不高于本等级最高分数；

通过下述计算式来计算最终分：

上式中表示最终分，MAX函数表示取两者较大，MIN函数表示取两者较小，BL表示某等级最低分数，BU表示某等级最高分数，B表示某等级的基础分值，F表示浮动分值，浮动分值可为负值。

本发明还提供一种作文类文本智能评分系统，包括：作文体裁判别模块、作文基础等级判别模块、浮动分值判别模块和合分模块；

作文体裁判别模块，包含作文体裁判别器训练子模块和作文体裁推理子模块，作文体裁判别器训练子模块用于基于预训练语言模型在经过体裁标注的作文文本数据上的模型训练，作文体裁推理子模块实现对待评分的作文文本体裁判别；

作文基础等级判别模块，包含作文基础等级判别器训练子模块和作文基础等级推理子模块，作文基础等级判别器训练子模块用于基于预训练语言模型的作文基础等级判别器渐进式迁移训练，作文基础等级推理子模块实现对对待评分的作文文本基础等级判别；

浮动分值判别模块，包含规则设置子模块和检测子模块，规则设置子模块用于设置考题的一般规则，检查子模块依据设置的评分规则对文本进行检查，实现加分或扣分；

合分模块，将基础等级分值与浮动分值进行合并得到输入作文文本的最终分。

本发明还提供一种作文类文本智能评分设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算程序时实现的作文类文本智能评分方法步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供的作文类文本智能评分方法、系统与设备中，作文体裁判别模块对待评分的作文文本进行体裁判别，将输入文本分类至议论文、散文、说明文、记叙文和应用文共五个类型中的一个类型；作文基础等级判别模块依据输入文本的体裁类别，选择特定的判别模型对输入文本进行基础等级判别，输入的作文文本被判定为A、B、C和D共四个等级中的一个等级；浮动分值判别模块依据其他评分规则进行加分或扣分，输入作文文本的最终分由基础等级分值和浮动分值共同构成。本发明能够实现对多种体裁作文的智能判分，具有较高的评分准确度和评分效率。

本发明对作文的评价从体裁、主旨、思想内容、语言表达和层次结构等多个维度进行考察，并将多个维度进行综合评价之后形成了一个最终分，客观的、全面的给了作文的评价。避免了各个维度又不是孤立的，彼此联系，相互影响来评价作文的弊端。

本发明还对作文的交代的事情发生时间、地点、人物等等进行提取评价，避免了单一的机器模型是很难同时对不同体裁的作文给出准确客观评价的问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是作文类文本智能评分系统示意图；

图2是作文类文本智能评分方法的整体流程图；

图3是本发明中作文体裁判别模型网络模型结构图；

图4A是作文基础等级判别领域模型示意图；

图4B是作文基础等级判别任务模型示意图；

图5是本发明中作文文本中字、词、标点错误判别模型。

具体实施方式

本发明提供的作文类文本智能评分方法中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明提供的作文类文本智能评分方法附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本发明提供的作文类文本智能评分方法中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例是某文科考试中作文评阅任务，该作文题目为材料赏析作文，满分为14分、47000份考生答案及相应考生答案得分，其中考生答案得分是由专业阅卷人给出的。本发明针对的作文体裁的类型有议论文、散文、说明文、记叙文和应用文。

本发明具体实施方案如下，如图1所示，作文类文本智能评分系统，包括：作文体裁判别模块、作文基础等级判别模块、浮动分值判别模块和合分模块；

合分模块，将基础等级分值与浮动分值依据

进行计算，输出计算结果。

对于上述系统来讲，上述系统运行的方法包括：如图2至5所示；

S1、作文体裁判别模块对输入的作文文本进行体裁判别。

具体而言，S1包含具体步骤：

S11，收集大量不同类别的作文语料，对作文的体裁类型进行标注，形成训练数据；

S12，基于预训练语言模型构建作文体裁判别模型，如图3所示，模型包括：语义抽取网络层和分类预测层；

S13，在已标注的作文语料上进行作文体裁判别模型的精调训练。

S2、作文基础等级判别模块依据输入文本的体裁类别，选择预设的判别模型对输入文本进行基础等级判别；

具体而言，S2包含具体步骤：

S21，收集同一体裁已标注的作文数据，将分值映射到A，B，C和D四个基础等级类别上，结合作文的题目要求共同形成训练数据；

每条作文数据的形式为：作文题目的要求文本[CLS]以及考生的作文文本[SEP]，符号”[CLS]”和”[SEP]”为特殊标记符号；

除真实数据外，通过将不匹配的作文题目要求和作文文本结合的方式构造一部分类别为D类别的伪数据；

S22，基于预训练语言模型构建作文基础等级判别基础模型，模型包括：语义抽取网络层和分类预测层；如图4所示。

S23，在大量已标注的作文数据集上进行精调训练，训练时对全部语义抽取网络层和分类预测层的权重进行更新，训练完成的模型为作文基础等级判别领域模型；如图4A所示。

S24，在特定的考试测评任务中，收集预设数量专家定标的作文数据，在作文基础等级判别领域模型的基础之上再一次进行模型精调训练，训练时保持语义抽取网络层的权重不变，对分类预测层的权重进行更新，精调完成的模型为作文基础等级判别任务模型。如图4B所示。

在本实施例中作文基础等级判别领域模型由海量已标注的作文数据进行训练，精调训练时进行全参数更新，而作文基础等级判别任务模型则由此次考试中评卷人员标注的部分作文数据进行训练，二次精调训练时只对分类层进行参数更新。

在本实施例中不同等级所代表的分值如下表所示：

表1 不同等级所代表的分值

等级	基本分	最低分	最高分
				A	12	11	14
B	9	8	11
				C	6	4	8
D	2	0	4

在本实施例中不同等级所代表的分值如下表所示：

表1 不同等级所代表的分值

等级	基本分	最低分	最高分
				A	12	11	14
B	9	8	11
				C	6	4	8
D	2	0	4

S3、浮动分值判别模块依据预设评分规则进行加分或扣分；

具体而言，S3包含以下检测内容：

统计词汇丰富度，对每一篇待评分作文文本进行分词并去掉停用词，然后统计词汇量，并除以题目要求最低字数进行归一化，对所有待评分作文的相对词汇丰富度进行降序排序，前N名待评分作文的相对词汇丰富度定为A级别，后M名待评分作文的相对词汇丰富度定为C级别，中间待评分作文的相对词汇丰富度定为B级别，每个级别代表的分值以及每个级别的人数比例则根据具体考试设置；

本实施例中，前20% 的待评分作文的相对词汇丰富度定为A级别，后20% 的待评分作文的相对词汇丰富度定为C级别，A级别加1分，B级别不加分，C级别扣1分。

顺畅度检测，篇章顺畅度检测包括字、词错误统计和语言表达顺畅度检测。对于字、词错误统计，本实施例中中国，每出现5个错误点扣1分，扣满2分为至；对于语言表达顺畅度则分为A、B和C三个等级，A级别加1分，B级别不加分，C级别扣1分。

字数统计，本实施例中，每少于50字数，扣1分。

题目检查，本实施例中，缺失题目扣除1分。

根据上述技术特征，篇章顺畅度检测模型基于预训练语言模型构建，模型包括：语义抽取网络层、条件随机场层和顺畅度分类层，模型结构如图5所示，模型的训练数据一部分由真实的考生错误样本构成，另一部分由人工生成的伪数据构成。

S4、合分模块基于合并基础等级分值和浮动分值形成输入作文文本的最终分。最终分最低不低于本等级最低分数，最高不高于本等级最高分数，即

本实施例中预训练语言模型优选BERT中文预训练语言模型，BERT是一种用于语言理解的深度预训练语言模型，下表是利用本发明方法进行作文自动评分的结果。

表2 作文评分结果

相应的，本发明还提供了一种作文类文本智能评分设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算程序时实现的作文类文本智能评分方法步骤。

作文类文本智能评分设备可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

13页详细技术资料下载

一种作文类文本智能评分方法、系统与设备

相关技术

网友询问留言