试卷内容提取方法、试卷匹配方法、装置、设备以及介质

文档序号:1613974 发布日期:2020-01-10 浏览:17次 >En<

阅读说明:本技术 试卷内容提取方法、试卷匹配方法、装置、设备以及介质 (Test paper content extraction method, test paper matching method, device, equipment and medium ) 是由 朱达华 徐宋传 陈晓宇 于 2019-09-17 设计创作,主要内容包括:本发明涉及计算机技术的技术领域,尤其是涉及试卷内容提取方法、试卷匹配方法、装置、设备以及介质,其试卷内容提取方法包括:S10:若获取到文档试题,则从所述文档试题中获取试题文档;S20:从所述试题文档中获取文档内容文件,其中,所述文档内容文件为xml格式的文件;S30:遍历所述文档内容文件,从所述文档内容文件中获取文档段落数据;S40:获取每一所述文档段落数据中的文本内容,将每一所述文档段落数据中的文本内容组成对应的段落对象;S50:将所述段落对象添加至集合plist中,并将所述集合plist作为试卷内容集。本发明具有快速获取试题文档内容,且能够从试题文档内容中获取具体试题的效果。(The invention relates to the technical field of computer technology, in particular to a test paper content extraction method, a test paper matching method, a device, equipment and a medium, wherein the test paper content extraction method comprises the following steps: s10: if the document test questions are obtained, obtaining test question documents from the document test questions; s20: acquiring a document content file from the test question document, wherein the document content file is a file in an xml format; s30: traversing the document content file, and acquiring document paragraph data from the document content file; s40: acquiring text content in each document paragraph data, and forming the text content in each document paragraph data into a corresponding paragraph object; s50: adding the paragraph object to a set plist, and taking the set plist as a test paper content set. The method and the device have the effects of quickly acquiring the test question document content and acquiring the specific test questions from the test question document content.)

试卷内容提取方法、试卷匹配方法、装置、设备以及介质

技术领域

本发明涉及计算机技术的技术领域,尤其是涉及试卷内容提取方法、试卷匹配方法、装置、设备以及介质。

背景技术

目前,在学校中,尤其是对于高中需要参加高考的学生,为了让学生能够接触到更多的题目,提升学生的学习成绩,学生会参加大量的考试或是做大量的试题。

在出题老师进行出题时,需要从大量的题库中或试卷中选取出对应的题目,进而组成新的试卷或练习卷。在制作题库的时候,通常是从现有的试题中,将试题中的题目进行拆分,进而将拆分出的题目作为题库。然而在对现有的文档的试卷进行拆分时,需要人工进行对试卷中进行标记,因而人工参与比较大,比较麻烦,也容易出错,因此还有改进空间。

发明内容

本发明的目的一是提供一种快速获取试题文档内容的试卷内容提取方法。

本发明的上述发明目的一是通过以下技术方案得以实现的:

一种试卷内容提取方法,所述试卷内容提取方法包括:

S10:若获取到文档试题,则从所述文档试题中获取试题文档;

S20:从所述试题文档中获取文档内容文件,其中,所述文档内容文件为xml格式的文件;

S30:遍历所述文档内容文件,从所述文档内容文件中获取文档段落数据;

S40:获取每一所述文档段落数据中的文本内容,将每一所述文档段落数据中的文本内容组成对应的段落对象;

S50:将所述段落对象添加至集合plist中,并将所述集合plist作为试卷内容集。

通过采用上述技术方案,从文档试题中的试题文档中,获取xml格式的文档内容文件,便于从该试题文档中读取到对应的文档段落的标签,进而能够从该文档段落标签中获取到对应的段落,以及每一段落中的文档段落数据,有利于从该文档段落数据中读取出每一文档段落数据中的段落对象;同时,将该段落独享添加至集合plist中,进而有助于能够通过plist的文件形式,存储预设的获取试题文档中的具体试题的规则,进而有助于在试题文档中自动获取得到具体试题,进而能够有助于对试题文档的识别和拆分。

本发明进一步设置为:步骤S20包括:

S21:从所述试题文档中获取文档格式;

S22:对所述文档格式的兼容性进行判断,若判断出所述文档格式不兼容,则将所述文档格式转换成兼容格式;

S23:从所述兼容格式中的所述试题文档中获取文档内容文件。

通过采用上述技术方案,通过对文档的兼容性进行判断,再将非兼容格式的试题文档进行格式转换后,能够保证在获取文档内容文件时的准确性,进而有助于后续对试题的提取与拆分。

本发明的目的二而是提供一种能够从试题文档内容中获取具体试题的试卷内容提取方法。

一种试卷匹配方法,所述试卷匹配方法包括:

S60:获取预设的匹配规则,根据所述匹配规则,遍历试卷内容集,得到大题段落数据,其中,所述试卷内容集是采用上述试卷内容提取方法获取得到的;

S70:从所述大题段落数据中获取对应的题型描述信息,并根据所述题型描述信息获取对应的小题段落数据;

S80:将所述大题段落数据和所述小题段落数据组成替换文件;

S90:将所述试卷内容集中的文档内容文件替换成所述替换文件,得到试题文件。

通过采用上述技术方案,通与预先设置好该匹配规则,并根据该匹配规则从上述试卷内容提取方法获取得到的试卷内容集中遍历出该大题段落数据,从而能够通过对该大题段落数据进一步地匹配出试卷中每一道大题中的小题,以及每一小题对应的内容;通过匹配识别出试卷内容集中的具体试题内容,能够将文档试卷中的题目的格式,并能够分别对每一道题目进行拆分以及存储,进而能够起到减少人工干预试卷的拆分,进而能够减少试卷拆分时出现错误,也能有助于老师建立试题的题库,便于老师出试卷。

本发明进一步设置为:在步骤S60之后,步骤S70之前,所述试卷匹配方法还包括:

S61:若所述大题段落数据为第一个匹配得到的大题段落数据,且第一个匹配得到的大题段落数据不为所述试卷内容集的第一个段落对象,则从所述匹配规则中获取标题匹配规则;

S62:获取第一个匹配得到的所述大题段落数据的对象序号,从所述试卷内容集中获取小于所述对象序号的对应的段落对象;

S63:使用所述标题匹配规则对小于所述对象序号的对应的段落对象进行匹配,若匹配成功,则将匹配结果作为试卷标题。

通过采用上述技术方案,在判断出匹配得到的大题段落数据为第一个匹配得到的大题段落数据后,通过匹配小于该大题段落数据的对象序号段落对象进行匹配,能够匹配出该文档试卷的试卷标题。

本发明进一步设置为:步骤S70包括:

S71:根据所述题型描述信息,从所述匹配规则中获取每一大题段落数据对应的子题匹配规则;

S72:根据所述子题匹配规则,在所述试卷内容集中进行遍历,得到子题列表;

S73:在子题列表中遍历所有的子题对象,将所述子题对象设置对应的小题对象,得到所述小题段落数据。

通过采用上述技术方案,通过使用子题匹配规则,能够根据不同的题型描述信息,从每一小题段落数据中匹配出对应的子题列表,再将从子题列表遍历出的子题对象与对应的小题对象进行关联,能够获取得到每一小题中具体的子题内容。

本发明的上述发明目的三是通过以下技术方案得以实现的:

一种试卷内容提取装置,所述试卷内容提取装置包括:

试题获取模块,用于若获取到文档试题,则从所述文档试题中获取试题文档;

内容获取模块,用于从所述试题文档中获取文档内容文件,其中,所述文档内容文件为xml格式的文件;

段落遍历模块,用于遍历所述文档内容文件,从所述文档内容文件中获取文档段落数据;

对象获取模块,用于获取每一所述文档段落数据中的文本内容,将每一所述文档段落数据中的文本内容组成对应的段落对象;

对象添加模块,用于将所述段落对象添加至集合plist中,并将所述集合plist作为试卷内容集。

通过采用上述技术方案,从文档试题中的试题文档中,获取xml格式的文档内容文件,便于从该试题文档中读取到对应的文档段落的标签,进而能够从该文档段落标签中获取到对应的段落,以及每一段落中的文档段落数据,有利于从该文档段落数据中读取出每一文档段落数据中的段落对象;同时,将该段落独享添加至集合plist中,进而有助于能够通过plist的文件形式,存储预设的获取试题文档中的具体试题的规则,进而有助于在试题文档中自动获取得到具体试题,进而能够有助于对试题文档的识别和拆分。

本发明的上述发明目的四是通过以下技术方案得以实现的:

一种试卷匹配装置,其特征在于,所述试卷匹配装置包括:

大题段落遍历模块,用于获取预设的匹配规则,根据所述匹配规则,遍历试卷内容集,得到大题段落数据,其中,所述试卷内容集是采用上述试卷内容提取方法获取得到的;

小题段落获取模块,用于从所述大题段落数据中获取对应的题型描述信息,并根据所述题型描述信息获取对应的小题段落数据;

替换文件获取模块,用于将所述大题段落数据和所述小题段落数据组成替换文件;

替换模块,用于将所述试卷内容集中的文档内容文件替换成所述替换文件,得到试题文件。

通过采用上述技术方案,通与预先设置好该匹配规则,并根据该匹配规则从上述试卷内容提取方法获取得到的试卷内容集中遍历出该大题段落数据,从而能够通过对该大题段落数据进一步地匹配出试卷中每一道大题中的小题,以及每一小题对应的内容;通过匹配识别出试卷内容集中的具体试题内容,能够将文档试卷中的题目的格式,并能够分别对每一道题目进行拆分以及存储,进而能够起到减少人工干预试卷的拆分,进而能够减少试卷拆分时出现错误,也能有助于老师建立试题的题库,便于老师出试卷。

本发明的上述发明目的五是通过以下技术方案得以实现的:

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述试卷内容提取方法的步骤。

本发明的上述发明目的六是通过以下技术方案得以实现的:

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述试卷匹配方法的步骤。

综上所述,本发明的有益技术效果为:

1.从文档试题中的试题文档中,获取xml格式的文档内容文件,便于从该试题文档中读取到对应的文档段落的标签,进而能够从该文档段落标签中获取到对应的段落,以及每一段落中的文档段落数据,有利于从该文档段落数据中读取出每一文档段落数据中的段落对象;同时,将该段落独享添加至集合plist中,进而有助于能够通过plist的文件形式,存储预设的获取试题文档中的具体试题的规则,进而有助于在试题文档中自动获取得到具体试题,进而能够有助于对试题文档的识别和拆分;

2.通与预先设置好该匹配规则,并根据该匹配规则从上述试卷内容提取方法获取得到的试卷内容集中遍历出该大题段落数据,从而能够通过对该大题段落数据进一步地匹配出试卷中每一道大题中的小题,以及每一小题对应的内容;通过匹配识别出试卷内容集中的具体试题内容,能够将文档试卷中的题目的格式,并能够分别对每一道题目进行拆分以及存储,进而能够起到减少人工干预试卷的拆分,进而能够减少试卷拆分时出现错误,也能有助于老师建立试题的题库,便于老师出试卷。

附图说明

图1是本发明一实施例中试卷内容提取方法的一流程图;

图2是本发明一实施例中试卷内容提取方法中对步骤S20的实现流程图;

图3是本发明一实施例中试卷匹配方法的一流程图;

图4是本发明一实施例中试卷匹配方法的另一流程图;

图5是本发明一实施例中试卷匹配方法中对步骤S70的实现流程图;

图6是本发明一实施例中试卷内容提取装置的一原理框图;

图7是本发明一实施例中试卷匹配装置的一原理框图;

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

实施例一:

在一实施例中,如图1所示,本发明公开了一种试卷内容提取方法,具体包括如下步骤:S10:若获取到文档试题,则从文档试题中获取试题文档。

在本实施例中,文档试题是指需要通过Word文档记载,需要进行识别拆分的试卷。试题文档是指将该文档试题导入相应的对文档进行识别拆分的系统中的文档试题。

具体地,通过教师或者是其他操作人员,将该文档试题导入该对文档进行拆分的系统中后,得到该试题文档。

S20:从试题文档中获取文档内容文件,其中,文档内容文件为xml格式的文件。

在本实施例中,文档内容文件是指通过xml(可扩展标记语言,Extensible MarkupLanguage)格式,存储记录有该试题文档中的内容的文件。

具体地,通过zip技术,对该试题文档进行读取至压缩包中,并从得到的压缩包中,获取“document.xml”的文件,并将该“document.xml”的文件作为该文档内容文件。

S30:遍历文档内容文件,从文档内容文件中获取文档段落数据。

在本实施例中,文档段落数据是指在该文档内容文件中的内容中,每一段落的内容数据。

具体地,采用dom4j工具,从该文档内容文件中获取该文档段落数据,其中,该dom4j工具是一种用来读写xml文件的工具。

S40:获取每一文档段落数据中的文本内容,将每一文档段落数据中的文本内容组成对应的段落对象。

在本实施例中,文本内容是指在每一文档段落数据中,具体的文字或者是文本的内容。

具体地,遍历每一文档段落数据中所有的段落节点,获取段落节点元素里面的字节点标签w:r/w:t,得到段落节点里面的文本内容,并连接在一起,从而得到一个文段段落数据的所有文本内容,并将这些文本作为该文档段落数据中的段落对象。

S50:将段落对象添加至集合plist中,并将集合plist作为试卷内容集。

在本实施例中,集合plist是指用于存储通过dom4j工具。试卷内容集是指存储有段落对象的集合plist。

具体地,在获取到段落对象后,将该段落对象依次放入该集合plist中,进而得到稿试卷内容集。

在将段落对象一次放入该集合plist中时,可根据该文档试题中,试题的顺序,对每一段落对象进行标号,在对每一段落对象进行标号后,根据标号从小到大的顺序,依次将对应的段落对象放入该集合plist中。

在本市实施中,从文档试题中的试题文档中,获取xml格式的文档内容文件,便于从该试题文档中读取到对应的文档段落的标签,进而能够从该文档段落标签中获取到对应的段落,以及每一段落中的文档段落数据,有利于从该文档段落数据中读取出每一文档段落数据中的段落对象;同时,将该段落独享添加至集合plist中,进而有助于能够通过plist的文件形式,存储预设的获取试题文档中的具体试题的规则,进而有助于在试题文档中自动获取得到具体试题,进而能够有助于对试题文档的识别和拆分。

在一实施例中,如图2所示,在步骤S20中,即从试题文档中获取文档内容文件,具体包括如下步骤:

S21:从试题文档中获取文档格式。

在本实施例中,文档格式是指该试题文档的后缀名。例如.doc,.docx等。

具体地,获取该试题文档的文档格式。

S22:对文档格式的兼容性进行判断,若判断出文档格式不兼容,则将文档格式转换成兼容格式;

在本实施例中,兼容格式是指后缀名为.docx的试题文档。

具体地,判断该试题文档的文档格式是否为后缀名为.docx的试题文档。若否,例如,该文档格式为.doc,则将该文档格式转换成后缀名为.docx的兼容格式。

S23:从兼容格式中的试题文档中获取文档内容文件。

具体地,采用步骤S20中的方法,从兼容格式中的试题文档中获取文档内容文件。

在一实施例中,如图3所示,本发明公开了一种试卷匹配方法,具体包括如下步骤:S60:获取预设的匹配规则,根据匹配规则,遍历试卷内容集,得到大题段落数据,其中,试卷内容集是采用试卷内容提取方法获取得到的。

在本实施例中,匹配规则是指预先设置好,用于从试卷内容集中匹配得到具体的试题的规则。大题段落数据是指在试卷中,记载有每一大题中的所有试题的段落对象。

具体地,预先设置好该匹配规则,例如下表:

Figure BDA0002204451620000071

具体地,使用大题的匹配规则,遍历该试卷内容集,进而得到该大题段落数据。

S70:从大题段落数据中获取对应的题型描述信息,并根据题型描述信息获取对应的小题段落数据。

在本实施例中,题型描述信息是指用于描述每一大题段落数据的题目类型的信息。小题段落数据是指每道大题中的小题对应的段落对象。其中,题型描述信息可以参照下表:

Figure BDA0002204451620000072

Figure BDA0002204451620000081

具体地,根据该题型描述信息,对大题段落数据进行匹配,得到每一大题段落数据中匹配出对应的小题段落数据。例如从选择题的大题段落数据中匹配出对应的小题段落数据,即从选择题中匹配出具体的题目时,可采取以下方法:根据选择题的题型描述信息,遍历试卷内容集,从该试卷内容集中获取符合选择题的题型描述信息的大题段落数据,如:一.选择题;进一步地,从该选择题的大题段落数据中的文本内容,根据小题的匹配规则,获取该小题段落数据,即该试卷中选择题的具体题目。优选地,可在大题段落数据中的大题的题干部分,匹配出该道大题的分数。

S80:将大题段落数据和小题段落数据组成替换文件。

在本实施例中,替换文件是指将试卷内容集中的文本内容进行替换的文件。

具体地,在从试卷内容集中识别出的具体题目,得到每道大题的大题段落数据中以及对应的小题段落数据后,生成st_source文件,并将该st_source文件作为该替换文件。

S90:将试卷内容集中的文档内容文件替换成替换文件,得到试题文件。

在本实施例中,试题文件是指识别有试卷内容集具体题目的文件。

具体地,通过zip技术,打开st_source文件,并生成对应的st.xml文件,进一步地,将试卷内容集中的“document.xml”的文件,替换成该st.xml,进而得到该试题文件。

需要说明的是,采用上述试卷内容提取方法,目的是从文档试题中识别出文字部分,而采用上述试卷匹配方法,目的是从识别出的文字部分,进一步匹配出具体的试题内容,并根据不同试题的类型,即大题的种类,将识别出的试题进行分类。

在本本实施例中,通与预先设置好该匹配规则,并根据该匹配规则从上述试卷内容提取方法获取得到的试卷内容集中遍历出该大题段落数据,从而能够通过对该大题段落数据进一步地匹配出试卷中每一道大题中的小题,以及每一小题对应的内容;通过匹配识别出试卷内容集中的具体试题内容,能够将文档试卷中的题目的格式,并能够分别对每一道题目进行拆分以及存储,进而能够起到减少人工干预试卷的拆分,进而能够减少试卷拆分时出现错误,也能有助于老师建立试题的题库,便于老师出试卷。

在一实施例中,如图4所示,在步骤S60之后,步骤S70之前,试卷匹配方法还包括:S61:若大题段落数据为第一个匹配得到的大题段落数据,且第一个匹配得到的大题段落数据不为试卷内容集的第一个段落对象,则从匹配规则中获取标题匹配规则。

在本实施例中,标题匹配规则是指用于在试卷内容集中匹配出试卷的标题的规则。

具体地,按照步骤S50中的段落对象的标号,并根据该标号从小到大的顺序遍历试卷内容集中的大题段落数据,在遍历出第一个大题段落数据时,从该标号判断该大题段落数据是否为在该段落对象中的第一个段落对象,若是,则从匹配规则中获取用于匹配试卷标题的标题匹配规则。

S62:获取第一个匹配得到的大题段落数据的对象序号,从试卷内容集中获取小于对象序号的对应的段落对象。

在本实施例中,对象序号是指在步骤S50和步骤S61中,对段落对象的标号。

具体地,在匹配到第一个大题段落数据后,获取该大题段落数据的对象序号。进一步地,获取比该大题段落数据的对象序号小的段落对象。

S63:使用标题匹配规则对小于对象序号的对应的段落对象进行匹配,若匹配成功,则将匹配结果作为试卷标题。

在本实施例中,试卷标题是指该文档试题中的标题。

具体地,使用该标题匹配规则,对小于第一个匹配到的大题段落数据的对象序号的段落对象进行匹配,用于检验该段落对象中的文本内容以及格式是否符合试题标题的格式,若是,则判定匹配成功,则将该段落对象作为该试题标题。可理解的,在匹配出试题标题时,是先对大题的内容进行匹配,再匹配出第一个大题对应的大题段落数据后,再向前匹配出该试题标题。

在一实施例中,如图5所示,在步骤S70中,即从大题段落数据中获取对应的题型描述信息,并根据题型描述信息获取对应的小题段落数据,具体包括如下步骤:

S71:根据题型描述信息,从匹配规则中获取每一大题段落数据对应的子题匹配规则。

在本实施例中,子题匹配规则是指用于在每一小题段落数据中,匹配出每一到具体试题的规则。

具体地,根据该题型描述信息,从该匹配规则中获取每一类大题的子题匹配规则,即获取每一大题段落数据对应的子题匹配规则。

S72:根据子题匹配规则,在试卷内容集中进行遍历,得到子题列表。

在本实施例中,子题列表是指记载有每一道具体的试题的数据表格。

具体地,逐一使用对应的子题匹配规则,遍历该试卷内容集中的所有对象,进而将识别出的对象存储至预设的列表中,进而得到该子题列表。

S73:在子题列表中遍历所有的子题对象,将子题对象设置对应的大题对象,得到小题段落数据。

在本实施例中,子题对象是指在该试卷内容集中具体一道试题的对象。大题对象是指在该试卷内容集中具体一道大题的题干部分的对象。其中,一个大题对象中包含有若干个子题对象。

具体地,根据该题型描述信息以及对应的子题匹配规则,对子题对象进行分类,例如,使用选择题对应的题型描述信息以及对应的子题匹配规则遍历出的子题对象分为一类。

进一步地,将该分好类的子题对象赋值于对应的大题对象,即将分好类的子题对象作为子对象,将对应的大题对象设置为分好类的子题对象的福对象。进而得到该类型题目的小题段落数据。例如对于选择题,先匹配出选择题的题干部分,作为大题对象,再遍历出该试卷内容集中所有的选择题,病作为子对象赋值于该题干部分的大题对象,进而得到选择题对应的小题段落数据。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例二:

在一实施例中,提供一种试卷内容提取装置,该试卷内容提取装置与上述实施例中试卷内容提取方法一一对应。如图6所示,该试卷内容提取装置包括试题获取模块10、内容获取模块20、段落遍历模块30、对象获取模块40和对象添加模块50。各功能模块详细说明如下:

试题获取模块10,用于若获取到文档试题,则从所述文档试题中获取试题文档;

内容获取模块20,用于从所述试题文档中获取文档内容文件,其中,所述文档内容文件为xml格式的文件;

段落遍历模块30,用于遍历所述文档内容文件,从所述文档内容文件中获取文档段落数据;

对象获取模块40,用于获取每一所述文档段落数据中的文本内容,将每一所述文档段落数据中的文本内容组成对应的段落对象;

对象添加模块50,用于将所述段落对象添加至集合plist中,并将所述集合plist作为试卷内容集。

优选地,内容获取模块20包括:

格式获取子模块21,用于从所述试题文档中获取文档格式;

兼容性判断子模块22,用于对所述文档格式的兼容性进行判断,若判断出所述文档格式不兼容,则将所述文档格式转换成兼容格式;

内容获取子模块23,用于从所述兼容格式中的所述试题文档中获取文档内容文件。

关于试卷内容提取装置的具体限定可以参见上文中对于试卷内容提取方法的限定,在此不再赘述。上述试卷内容提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一实施例中,提供一种试卷匹配装置,该试卷匹配装置与上述实施例中试卷匹配方法一一对应。如图7所示,该试卷匹配装置包括大题段落遍历模块60、小题段落获取模块70、替换文件获取模块80和替换模块90。各功能模块详细说明如下:

大题段落遍历模块60,用于获取预设的匹配规则,根据匹配规则,遍历试卷内容集,得到大题段落数据,其中,试卷内容集是采用试卷内容提取方法获取得到的;

小题段落获取模块70,用于从大题段落数据中获取对应的题型描述信息,并根据题型描述信息获取对应的小题段落数据;

替换文件获取模块80,用于将大题段落数据和小题段落数据组成替换文件;

替换模块90,用于将试卷内容集中的文档内容文件替换成替换文件,得到试题文件。

优选地,试卷匹配装置还包括:

匹配子模块61,用于若大题段落数据为第一个匹配得到的大题段落数据,且第一个匹配得到的大题段落数据不为试卷内容集的第一个段落对象,则从匹配规则中获取标题匹配规则;

对象获取子模块62,用于获取第一个匹配得到的大题段落数据的对象序号,从试卷内容集中获取小于对象序号的对应的段落对象;

标题匹配子模块63,用于使用标题匹配规则对小于对象序号的对应的段落对象进行匹配,若匹配成功,则将匹配结果作为试卷标题。

优选地,小题段落获取模块70包括:

匹配规则获取子模块71,用于根据题型描述信息,从匹配规则中获取每一大题段落数据对应的子题匹配规则;

子题遍历子模块72,用于根据子题匹配规则,在试卷内容集中进行遍历,得到子题列表;

段落获取子模块73,用于在子题列表中遍历所有的子题对象,将子题对象设置对应的小题对象,得到小题段落数据。

关于试卷匹配装置的具体限定可以参见上文中对于试卷匹配方法的限定,在此不再赘述。上述试卷匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

实施例三:

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储试卷内容集以及存储试题文件。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种试卷匹配方法;或者,该计算机程序被处理器执行时以实现一种试卷匹配方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

S10:若获取到文档试题,则从文档试题中获取试题文档;

S20:从试题文档中获取文档内容文件,其中,文档内容文件为xml格式的文件;

S30:遍历文档内容文件,从文档内容文件中获取文档段落数据;

S40:获取每一文档段落数据中的文本内容,将每一文档段落数据中的文本内容组成对应的段落对象;

S50:将段落对象添加至集合plist中,并将集合plist作为试卷内容集。

或者,处理器执行计算机程序时还可以实现以下步骤:

S60:获取预设的匹配规则,根据匹配规则,遍历试卷内容集,得到大题段落数据,其中,试卷内容集是采用试卷内容提取方法获取得到的;

S70:从大题段落数据中获取对应的题型描述信息,并根据题型描述信息获取对应的小题段落数据;

S80:将大题段落数据和小题段落数据组成替换文件;

S90:将试卷内容集中的文档内容文件替换成替换文件,得到试题文件。

实施例四:

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

S10:若获取到文档试题,则从文档试题中获取试题文档;

S20:从试题文档中获取文档内容文件,其中,文档内容文件为xml格式的文件;

S30:遍历文档内容文件,从文档内容文件中获取文档段落数据;

S40:获取每一文档段落数据中的文本内容,将每一文档段落数据中的文本内容组成对应的段落对象;

S50:将段落对象添加至集合plist中,并将集合plist作为试卷内容集。

或者,计算机程序被处理器执行时还可以实现以下步骤:

S60:获取预设的匹配规则,根据匹配规则,遍历试卷内容集,得到大题段落数据,其中,试卷内容集是采用试卷内容提取方法获取得到的;

S70:从大题段落数据中获取对应的题型描述信息,并根据题型描述信息获取对应的小题段落数据;

S80:将大题段落数据和小题段落数据组成替换文件;

S90:将试卷内容集中的文档内容文件替换成替换文件,得到试题文件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:描述数据标注任务的DSL应用系统及其方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!