一种基于短语结构树的相似题目识别方法和系统

文档序号:988122 发布日期:2020-11-06 浏览:6次 >En<

阅读说明:本技术 一种基于短语结构树的相似题目识别方法和系统 (Similar topic identification method and system based on phrase structure tree ) 是由 陈鹏鹤 卢宇 余胜泉 刘杰飞 于 2020-08-03 设计创作,主要内容包括:本发明提出一种基于短语结构树的相似题目识别方法和系统,包括:S1.针对输入题目进行文本预处理;S2.针对题目信息构建短语结构树;S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构信息及叶子节点内容信息,判定题目的相似情况。本发明主要针对中小学学科相似题目的比较识别问题,对待比较题目构建短语结构树然后通过对短语结构树的比较来评估题目的相似情况,从而降低题库的冗余。(The invention provides a similar topic identification method and a system based on a phrase structure tree, which comprises the following steps: s1, performing text preprocessing on input questions; s2, constructing a phrase structure tree aiming at the question information; and S3, pruning the phrase structure tree, traversing the phrase structure tree, and judging the similar situation of the subject according to the tree structure information of the phrase structure tree and the content information of the leaf nodes. The method mainly aims at the problem of comparing and identifying the similar subjects of the primary and secondary schools, a phrase structure tree is constructed for the subjects to be compared, and then the similar conditions of the subjects are evaluated through comparison of the phrase structure tree, so that the redundancy of the subject library is reduced.)

一种基于短语结构树的相似题目识别方法和系统

技术领域

本发明涉及教育技术领域,尤其涉及一种基于短语结构树的相似题目识别 方法和系统。

背景技术

题目数据是教育资源中重要的组成部分,在学习和教学过程中,学生日常 使用的练习题目及用于测试的考试题目均属于题目数据。随着计算机和互联网 技术的发展,中小学教育中的题目数据基本实现了电子化存储。题目数据在学 习过程中不仅可以帮助学生加深对知识的学习与理解,还可以帮助老师及时掌 握学生对知识的掌握情况,了解学生的学习进度,帮助学生查缺补漏,提高学 习效率。

对于中小学多学科题库的建设,一方面便于对中小学多学科题目数据的更 新与管理,另一方面可以降低老师教学的工作强度。随着题库中题目数据的不 断更新与增加,题库中会出现两个或多个题目相同或相似的情况。相同或相似 题目的出现一方面使得题库变得冗余庞大,需要消耗更多的存储计算资源;另 一方面会影响题库数据的检索使用效率。

因此对题库中的题目进行筛查并去除相同或相似题目是十分必要的。在相 似题目识别任务中,评估计算两个题目的相似度是其中最重要的一环。当前的 题目相似度计算方式主要是将待比较的题目看作两个连续的字符串来处理。一 种方式是通过字符串的距离度量来评估题目的相似度,如将字符表示为向量后, 计算两个向量之间的余弦夹角或欧式距离等;另一种方式是对文本降维,如给 字符串生成一个SimHash值,即指纹(fingureprint),通过SimHash的值来评估 两个字符串的相似情况。

值得注意的是,以上的方法均把题目作为一个字符串整体来处理,在实际 中,一道完整的题目,往往包含不同的表达形式,如有的为普通字符表示,有 的为公式表示。如果将题目整体按照字符串简单处理,则无法准确评估题目的 相似情况。而且有的题目尽管字符相同,但是不同的语句结构导致表示的题目 信息有所差别,实际为不同的题目。比如“-3的倒数的相反数”和“-3的相反 数的倒数”。因此需要一种能够更精确地判断题目是否相同的方法。短语结构树 是一种可以很好的对语句中的关键位置及关键信息进行表示的结构。

发明内容

针对以上问题,本发明提出一种基于短语结构树的相似题目识别方法和系 统,将题目数据进行文本预处理并解析题目涉及到的知识点信息及公式信息, 然后针对题目信息构建短语结构树,通过对构建的短语结构树先进行剪枝处理, 然后进行层次遍历,比较树的结构信息及叶节点内容信息进而实现两个题目之 间相似度的比较。

根据本发明的一个方面,提出一种基于短语结构树的相似题目识别方法, 包括以下步骤:

S1.针对输入题目进行文本预处理;

S2.针对题目信息构建短语结构树;

S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结 构及叶子节点内容,判定题目的相似性。

2、根据权利要求1所述的方法,其特征在于,在所述步骤S1中,对输入 题目进行文本预处理,包括:

S11.统一编码处理、分词、去除停用词、去除无用及非法字符,从而获得 词序列;

S12.根据题目中的关键字解析识别题目涉及的知识点信息;

S13.根据正则表达式解析题目中的公式表达式信息。

3、根据权利要求2所述的方法,其特征在于,所述步骤S2中,针对题目 信息构建短语结构树的步骤包括:

S21.对词序列进行词法分析;

S22.对词序列进行语法分析;

S23.根据词法分析和语法分析的结果构建短语结构树。

4、根据权利要求1所述的方法,其特征在于,所述步骤S3中,剪枝的步 骤包括:

S31.对***语进行剪枝处理;

S32.对无实际意义的词进行剪枝处理。

5、根据权利要求4所述的方法,其特征在于,所述步骤S3中,判定题目 的相似性的步骤包括:

S33.比较题目短语结构树的结构,若短语结构树的树结构信息不相同,则判 定题目不相同,否则进入步骤S34;

S34.比较短语结构树的内容信息是否相同,若不相同则判定题目不相同,否 则判定题目相同。

6、根据权利要求5所述的方法,其特征在于,所述步骤S34中,比较短语 结构树的内容信息的步骤包括:

比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;

比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;

为词性设置不同的权重值,计算两个短语的相似度,如果相似度大于设定的 阈值,则判定题目相同,否则判定题目不相同。

7、根据权利要求6所述的方法,其特征在于,所述相似度的计算公式为:

其中wi为短语结构树叶子节点中第i个分词对应词性的权重,ci为两个短语 结构树第i个分词的比较结果,若第i个分词相同ci=1,否则ci=0。

8、一种基于短语结构树的相似题目识别系统,其特征在于,所述系统包括 题目文本预处理模块、构建短语结构树模块及题目判定模块,其中:

题目文本预处理模块,用于读取待比较题目信息及题库题目信息,对题目 文本进行相应的文本预处理,解析题目中的知识点信息及公式表达式信息,最 后将题目信息传送给构建短语结构树模块;

构建短语结构树模块,根据题目文本预处理模块获取的题目信息,对题目 进行词法分析及语法分析,结合题目中的知识点信息与公式表达式信息构建短 语结构树,将其传送给题目判定模块;

题目判定模块,根据待比较题目的短语结构树信息,对短语结构树做剪枝 操作,然后层次遍历短语结构树,根据短语结构树的树结构信息及题目内容信 息判定题目的相似性并对题目进行相应的处理;

9、根据权利要求8所述的系统,其特征在于,在所述题目文本预处理模块 中,对题目文本进行预处理的方法包括;

统一编码处理、分词、去除停用词、去除无用及非法字符,获得词序列;

根据题目中的关键字解析识别题目中涉及的知识点信息;

根据正则表达式解析题目中的公式表达式信息。

10、根据权利要求8所述的系统,其特征在于,所述题目判定模块中,根据 短语结构树的树结构信息及题目内容信息判定题目的相似性的方法包括:

比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;

比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;

为词性设置不同的权重值,计算短语间的相似度,如果相似度大于设定的 阈值,则判定题目相同,否则判定题目不相同。

本发明的有益效果为:

(1)针对相似题目比较过程中的题目表征,利用短语结构树对题目进行结 构化解析,从而实现对题目描述细颗粒度的结构化表征。

(2)针对相似题目比较,本发明在短语结构树表征的基础上,通过对短语 结构树进行剪枝,提炼短语结构树的主要部分,进行短语结构树的比较,在题 目结构层面对题目进行比较。

(3)针对相似题目的比较,本发明在短语结构树比较的基础上,通过比较 题目包含的知识点信息、公式信息以及具体文本信息的细颗粒度比较,提高了 相似性判断的准确率。

附图说明

图1为根据本发明一个实施例的一种基于短语结构树的相似题目识别方法 的流程示意图;

图2为根据本发明一个实施例的题目文本预处理方法的流程示意图;

图3为根据本发明一个实施例的题目构建短语结构树的流程示意图;

图4为一个短语结构树的示意图;

图5为一个短语结构树的示意图;

图6为一个短语结构树的示意图;

图7为根据本发明一个实施例的题目相似性判定的流程示意图;

图8为一个短语结构树的示意图;

图9为一个短语结构树的示意图;

图10为一个短语结构树的示意图;

图11为一个短语结构树的示意图;

图12为根据本发明一个实施例的一种基于短语结构树的相似题目识别系 统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清查、完整的描述,以下 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有 其他实施例,都属于本发明保护的范围。

短语结构树是指将句子的短语结构分析的结果以树形结构输出,即对每一 个输入的句子通过构造短语树来完成对它的分析,短语结构树不仅可以表示出 句子的语法关系,也可以表示出句子的层次。从短语结构树中可以快速分析句 子间的短语结构,比如节点标记为NP表示该部分为一个名词短语。在短语结 构树中,当两个短语最近的父节点属于同一个节点时,称这两个短语为同层次 短语,除此之外,短语结构树还可以分析出句子中的并列结构,从句结构等。

下面结合附图及具体实施方式详细介绍本发明。根据本发明的一个方面, 提出一种基于短语结构树的相似题目识别方法,如图1所示,包括以下步骤:

S1.针对输入题目进行文本预处理;

S2.基于题目信息构建短语结构树;

S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结 构及叶子节点内容的相似度,判定题目的相似情况。

在步骤S1中,由于存储方式及应用环境的不同,题目的表现形式往往也不 一样。如为了题目不同的展示需求,题目的编码方式有GB2312、GBK、UTF-8 等不同情况。因此需要对待比较题目进行统一文本预处理,便于后续对题目进 行相似度比较,提高相似度比较的准确度。

如图2所示,文本预处理操作主要包括以下操作:

(1)根据题目中的关键字解析题目中涉及的知识点信息。

(2)通过正则表达式识别题目信息中的公式表达式信息。

(3)统一编码处理:统一题目编码格式为UTF-8;

Figure BDA0002614212030000061

对于字符归一,例如题目中可能存在字符“4”,“a”等字 符,要将其归一化到“4”,“a”;

将各种类型的空格转换为中文空格,将各种类型的标点符号转换 为中文标点符号例如将英文“?”转换为中文“?”;

将题目中的英文字符统一转换为小写格式;

(4)分词:

Figure BDA0002614212030000073

题目内容的中文字符需要先进行分词;

Figure BDA0002614212030000074

将题目分词后,题目内容转换为空格隔开的词表示的序列;

(5)去除停用词:

为了提高题目相似度比较的精度,可去除一些对题目比较不重要 的词。这里使用常用停用词表。

(6)去除无用及非法符号:

Figure BDA0002614212030000076

去除题目中的空括号及括号中有一个或多个空格的情况,如: “()”、“()”、“()”等;

去除题目描述末尾的多余或者不匹配符号如:“=”、“??”、 “(”、“[”、“{”等;

Figure BDA0002614212030000078

去除题目描述中仅有序号的无意义情况如“A、B、CD”、“A、B、 C、D、”、“A、B、C”等。

去除换行符号、制表符号、下划线及不合法字符如“□”、“\xa0”、 “\xc2”、“\x0b”、“\x0c”、“\x0d”“\x0f”等;

去除字符集外乱码字符,无法正常显示的字符如emoji符号等;

这几种操作并无时间先后顺序,本领域技术人员可以根据需要设定其具体执 行步骤。

知识点是指对某一个知识的泛称,特指教科书上或考试的知识。如“已知直 角三角形的直角边长,计算其斜角边长”的问题即属于勾股定理的知识点。根据 题目信息中的关键词在预定义的知识点库中进行匹配,获取题目所涉及的知识 点信息。

知识点库包括中小学出现的各个知识点信息及每个知识点涉及的相关描述 的关键字(关键词用于描述知识点下的具体知识,例如知识点“三解函数”就 包括“任意角”、“弧度制”、“正弦”、“余弦”、“正切”等关键词),知 识点库结构和示例信息如表1所示。

表1知识点库结构和示例

在一个实施例中,输入题目如下:

题目:方程x2+6*x+9=0的根的相反数为()?

通过文本预处理将英文括号统一转换为中文括号;去除空格;去除空括号。

经过解析该题目信息,获取到题目的公式表达式为:x2+6*x+9=0

经过对题目信息进行匹配,获得题目中的关键词“方程”在知识点库中所属 的知识点信息为“函数与方程”。

题目信息为经过上述处理后生成的词序列、知识点信息和公式信息。

在步骤S2中,如图3所示,针对题目信息构建短语结构树,主要包括以下 步骤。

构建短语结构树需要在分词的基础上,对题目信息中词序列进行词法分析、 语法分析,然后构建短语结构树,用每一个树节点表示词之间的关系,叶子节 点的内容为题目信息中的分词,进而将题目信息转换为短语结构树表示。

在计算机科学和技术中,短语结构树是一种用来表达句子的句法结构的数据 结构。我们将这种思想应用于对题目信息的处理上,将题目信息构建为一棵树 结构表示,其中叶子节点与输入句子中的词语相关联,其他中间节点内容为短 语成分的标记。如NP表示该短语为名词短语,VP表示该短语为动词短语。短 语结构树的构建步骤主要经过词法分析与语法分析。

词法分析,是对读入字符串进行词法规则匹配的过程,通过从左到右逐个字 符地扫描要分析的文本,基于词语的12种类别,对分词结果中的词性进行分析 归类,确定词法规则。其中词性类别分别为名词、动词、形容词、数词、量词、 代词、副词、介词、连词、助词、叹词、拟声词。

语法分析,是将分词后的字符流作为输入,识别由词法分析给出的分词序列 是否是符合语法规则的语句。现代汉语语法有多种句式结构,比如主谓宾结构、 主谓结构、动宾结构等,语法分析主要分析题目信息中句式结构信息。

通过短语结构树,我们可以清晰的理清句子间各部分的关系。其中短语结构 树中节点表示的关系与其含义如表2所示:

表2短语结构树中节点表示及含义

Figure BDA0002614212030000101

例如,语句“亲爱的同学们坐在飞驰的高铁上”,构建的短语结构树结构如 图4所示。将其按照树结构表示如下:

[S[VP[CP[ADJP亲爱的][NP同学们]][VV坐在]][NP[CP[VP飞驰的][NN 高铁]][LC上]]]

再如,题目信息:“方程x2+6*x+9=0的根的相反数为”,构建的短语 结构树结构如图5所示,短语结构树存储表示:[S[NP[NN方程][NR x^2+6*x+9=0][DNP的]][NP[NN根][DNP的][NN相反数]][VV为]]

其中公式信息为:x^2+6*x+9=0

涉及的知识点信息为:函数与方程。

在另一个实例中,题目信息:“-3的倒数的相反数为”,构建的短语结构树 结构如图6所示。短语结构树存储表示:[S[NP[NR-3][DNP的]][NP[NN倒 数][DNP的][NN相反数]][VV为]]

其中公式信息为:-3

涉及的知识点信息为:函数与方程。

在步骤S3中,对短语结构树做剪枝操作,遍历短语结构树,根据短语结构 树的树结构信息及题目内容信息,进而判定题目的相似情况。

如图7所示,基于短语结构树对题目的相似情况进行判定主要包括两部分 操作,首先是对短语结构树的剪枝处理以及遍历短语结构树并比较其短语结构 树的树结构信息,然后是比较短语结构树的内容信息,包括对题目涉及的知识 点信息与公式信息及题目具体内容信息的比较。具体步骤如下:

(1)对短语结构树进行剪枝处理:

对短语结构树做剪枝操作,包括对***语的剪枝、对于无实际意义的词如 语气词、拟声词、断句符节点的剪枝。其中***语在句子中属于独立语,将其 去掉可以使得句子得到简化。无实际意义的词在句子中不包含或包含少量语义 信息,去掉后不影响句子表达的意思。

在短语结构树中标记为PRN的部分为***语,我们将***语部分剪枝,将 其子节点全部删除然后将剩下的部分合并在一起。在短语结构树中标记为Y的 部分为语气词,标记为O的部分拟声词,标记为PU的部分为断句符节点,我 们将以上标记部分剪枝,将其子节点全部删除然后将剩余部分合并在一起。剪 枝前短语结构树如图8所示,短语结构树存储表示为:

[S[NP[NN小明][VP[VV有][QP[CD三][M只]][NN兔子][PU,]]][VP [D又][VV得到][QP[CD两][M只]][PU,]][VP[P共有][QP[CD几][M 只]][PU?]]]

剪枝后短语结构树如图9所示,短语结构树存储表示为:

[S[NP[NN小明][VP[VV有][QP[CD三][M只]][NN兔子]]][VP[VV 得到][QP[CD两][M只]]][VP[P共有][QP[CD几][M只]]]]

(2)对短语结构树进行遍历:

对短语结构树的遍历采用树的层次遍历方法,具体算法描述如下:

初始化一个队列Q,将短语结构树的根节点S加入队列;

While队列Q非空:

将队列Q的头节点元素取出;

访问该节点值;

若该节点的子节点非空且子节点非叶子节点则将其子节点加入队列。

(3)比较短语结构树的树结构信息:

比较题目短语结构树的树结构信息,若短语结构树的树结构信息不相同,则 判定题目不相同,否则需要继续比较短语结构树的内容信息;

具体比较过程如下:

在短语结构树的层次遍历过程中,对待比较的两个短语结构树T1和T2先初始 化两个队列P和Q,先将两个短语结构树的根节点S1和S2分别加入队列P和Q, 然后将两个队列的头节点取出,即将S1和S2进行比较,若S1和S2的内容及S1和S2的子树节点内容C1和C2均相同,则将子树节点C1和C2加入队列P和Q。否则直 接判定两个短语结构树的结构不同。

一轮比较结束后判定两个队列P和Q是否为空,若两个队列均不为空,从 队列中继续取出头节点,继续进行上面的比较。若两个队列一个为空,一个不 为空,则判定两个短语结构树的结构不同。若两个队列均为空,则短语结构树 的结构比较结束。

(4)比较短语结构树的题目内容信息:

比较短语结构树的题目内容信息,方法如下:

先比较两个题目涉及的知识点信息是否相同,若不相同则判定题目不相同; 若知识点信息相同则继续比较短语结构树包含的公式表达式是否相同,若不相 同则判定题目不相同;若公式表达式信息相同则比较题目具体内容信息。对题 目内容的比较中,为词性类别设置不同的权重值,然后计算两个短语的相似度, 如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。相似度 score的计算公式为:

其中wi为短语结构树叶子节点中第i个分词对应词性的权重,ci为两个短语 结构树第i个分词的比较结果,若第i个分词相同ci=1,否则ci=0。

如题目“四大发明对世界做出突出的贡献”与题目“姚明给体育界做出伟 大的贡献”的比较中,名词部分为{四大发明、姚明、世界、体育界、贡献}, 动词部分{对、给、做出},形容词为{突出的,伟大的},具体表示如下:

词性:名词动词名词动词形容词名词

在一个实施例中,将名词、动词、形容词的权重分为为0.2、0.3、0.1,阈 值设为0.8,则

Figure BDA0002614212030000132

词性:名词动词名词动词形容词名词

所以score=(0.2*0+0.3*0+0.2*0+0.3*1+0.1*0+0.2*1)/(0.2*1+0.3*1+0.2*1+0.3* 1+0.1*1+0.2*1)=0.4167,小于设定的阈值0.8,故判定两个短语内容不相同,即 题目不相同。

在另一个实例中,待比较的两个题目具体如下:

题目1:方程x2+6*x+9=0的根的相反数为

题目2:-3的倒数的相反数为

构建的短语结构树表示为:

题目1:[S[NP[NN方程][NR x^2+6*x+9=0][DNP的]][NP[NN根][DNP 的][NN相反数]][VV为]]

题目2:[S[NP[NR-3][DNP的]][NP[NN倒数][DNP的][NN相反数]][VV 为]]

先对短语结构树做剪枝处理,没有找到可以剪枝的部分。然后比较短语结构 树的结构,采用层次遍历的方式,先初始化两个队列P和Q,将两个树的根节 点S1和S2分别加入队列P和Q中,此时队列P和Q非空,将头节点S1和S2取出, 两个节点内容均为“S”,且均有三个子树节点“NP”,“NP”,“VV”,且子树节 点内容相同。故分别将子树节点“NP”,“NP”,“VV”加入队列P和Q。此时 队列P和Q非空,取出两个队列的头节点“NP”,发现题目1的子树有三个节 点,分别是“NN”,“NR”,“DNP”,而题目2的子树仅有两个节点“NR”,“DNP”, 因此判定两个短语结构树的结构不同,进而判定两个题目不相似。

在另一个实例中,待比较的两个题目具体如下:

题目3:西游记的作者赞扬了反抗精神

题目4:西游记的作者讲述了什么故事

树形结构如图10、11所示。构建的短语结构树结构如下:

题目3:[S[NP[NP[NN西游记][DNP的]][NN作者]][VP[VV赞扬][AS 了]][NP[NN反抗][NN精神]]]

题目4:[S[NP[NP[NN西游记][DNP的]][NN作者]][VP[VV讲述][AS 了]][NP[PN什么][NN故事]]]

先对短语结构树做剪枝处理,没有找到可以剪枝的部分。然后比较短语结 构树的结构,采用层次遍历的方式,先初始化两个队列P和Q,将两个树的根 节点S1和S2分别加入队列P和Q中,此时队列P和Q非空,将头节点S1和S2取 出,两个节点内容均为“S”,且均有三个子树节点“NP”,“VP”,“NP”,且子 树节点内容相同。故分别将子树节点“NP”,“VP”,“NP”加入队列。此时队 列P和Q非空,取出两个队列的头节点“NP”,发现题目3的子树和题目4的 子树节点相同,将其子树节点“NN”,“DNP”加入队列。继续取出队列P和Q 中的头节点“VP”,比较其子节点,发现子节点均为“VV”,“AS”。继续取出 队列P和Q子节点“NP”,比较其子节点,发现题目3的子节点均为“NN”, 而题目4的子节点为“PN”,“NN”,并不相同,因此判定两个短语结构树的结 构不同,进而判定两个题目不相似。

根据本发明的另一方面,提出一种基于短语结构树的相似题目识别系统, 包括:题目文本预处理模块、构建短语结构树模块及题目判定模块,如图12 所示。

题目文本预处理模块,用于读取待比较题目信息及题库题目信息,对题目 文本进行相应的文本预处理,解析题目中的知识点信息及公式表达式信息和题 目信息,并将其传送给构建短语结构树模块;具体的方法见上文。

构建短语结构树模块,根据题目文本预处理模块获取的题目信息,对题目 进行词法分析及语法分析,结合题目中的知识点信息与公式表达式信息构建短 语结构树,将其传送给题目判定模块;具体的方法见上文。

题目判定模块,根据待比较题目的短语结构树信息,先对短语结构树做剪 枝操作,然后层次遍历短语结构树,根据短语结构树的树结构信息及题目内容 信息判定题目的相似情况,并对题目进行相应的处理。

在题目判定模块中,首先对短语结构树进行剪枝处理以及遍历短语结构树 并比较其短语结构树的树结构信息,然后是比较短语结构树的内容信息,包括 对题目涉及的知识点信息与公式信息及题目具体内容信息的比较。具体步骤如 下:

(1)对短语结构树进行剪枝处理:

对短语结构树做剪枝操作,包括对***语的剪枝、对于无实际意义的词如 语气词、拟声词、断句符节点的剪枝。其中***语在句子中属于独立语,将其 去掉可以使得句子得到简化。无实际意义的词在句子中不包含或包含少量语义 信息,去掉后不影响句子表达的意思。

在短语结构树中标记为PRN的部分为***语,我们将***语部分剪枝,将 其子节点全部删除然后将剩下的部分合并在一起。在短语结构树中标记为Y的 部分为语气词,标记为O的部分拟声词,标记为PU的部分为断句符节点,我 们将以上标记部分剪枝,将其子节点全部删除然后将剩余部分合并在一起。

(2)对短语结构树进行遍历:

对短语结构树的遍历采用树的层次遍历方法,具体算法描述如下:

初始化一个队列Q,将短语结构树的根节点S加入队列;

While队列Q非空:

将队列Q的头节点元素取出;

访问该节点值;

若该节点的子节点非空且子节点非叶子节点则将其子节点加入队列。

(3)比较短语结构树的树结构信息:

比较题目短语结构树的树结构信息,若短语结构树的树结构信息不相同,则 判定题目不相同,否则需要继续比较短语结构树的内容信息;

具体比较过程如下:

在短语结构树的层次遍历过程中,对待比较的两个短语结构树T1和T2先初始 化两个队列P和Q,先将两个短语结构树的根节点S1和S2分别加入队列P和Q, 然后将两个队列的头节点取出,即将S1和S2进行比较,若S1和S2的内容及S1和S2的子树节点内容C1和C2均相同,则将子树节点C1和C2加入队列P和Q。否则直 接判定两个短语结构树的结构不同。

一轮比较结束后判定两个队列P和Q是否为空,若两个队列均不为空,从 队列中继续取出头节点,继续进行上面的比较。若两个队列一个为空,一个不 为空,则判定两个短语结构树的结构不同。若两个队列均为空,则短语结构树 的结构比较结束。

(4)比较短语结构树的题目内容信息:

比较短语结构树的题目内容信息,方法如下:

先比较两个题目涉及的知识点信息是否相同,若不相同则判定题目不相同; 若知识点信息相同则继续比较短语结构树包含的公式表达式是否相同,若不相 同则判定题目不相同;若公式表达式信息相同则比较题目具体内容信息。对题 目内容的比较中,为词性类别设置不同的权重值,然后计算两个短语的相似度, 如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。相似度 score的计算公式为:

Figure BDA0002614212030000171

其中wi为短语结构树叶子节点中第i个分词对应词性的权重,ci为两个短语 结构树第i个分词的比较结果,若第i个分词相同ci=1,否则ci=0。

通过上面的方法或系统,可以对题库中的题目逐个进行比较,从而删除相 同或相似度高的题目,减少题库的冗余,提高题库的质量。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的 技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本 技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的 本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明 创造均在保护之列。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种粘贴单元格的方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!