一种公告内容分析方法、系统、电子设备及存储介质

文档序号:135781 发布日期:2021-10-22 浏览:13次 >En<

阅读说明:本技术 一种公告内容分析方法、系统、电子设备及存储介质 (Method, system, electronic device and storage medium for analyzing announcement content ) 是由 朱菁 毛瑞彬 杨雯雯 邓永翠 潘斌强 张大千 尚东东 孙德旺 张俊 杨建明 于 2021-07-21 设计创作,主要内容包括:本申请公开了一种公告内容分析方法,所述公告内容分析方法包括:对目标公告中的元素进行标注得到所述目标公告的篇章结构;根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;根据所述特征工程生成所述目标公告的知识图谱;若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。本申请能够提高对公告的处理精度,实现高准确性的公告内容分析。本申请还公开了一种公告内容分析系统、一种电子设备及一种存储介质,具有以上有益效果。(The application discloses a method for analyzing announcement content, which comprises the following steps: marking elements in the target bulletin to obtain a chapter structure of the target bulletin; extracting element characteristics of the target bulletin according to the discourse structure to obtain characteristic engineering of each element; generating a knowledge graph of the target notice according to the feature engineering; and if the bulletin content analysis request is received, outputting an analysis result corresponding to the bulletin content analysis request by using the knowledge graph. The method and the device can improve the processing precision of the bulletins and realize the analysis of the bulletin contents with high accuracy. The application also discloses a system for analyzing the announcement content, an electronic device and a storage medium, which have the beneficial effects.)

一种公告内容分析方法、系统、电子设备及存储介质

技术领域

本申请涉及文本处理技术领域,特别涉及一种公告内容分析方法、系统、电子设备及存储介质。

背景技术

上市公司信息的披露公告是证券投资中重要的数据来源,投资者依赖对数据的分析和解读进行投资决策。公告的标注和训练过程较为复杂,目前的方法主要以对文档进行拆解后再处理。上述拆解文档后再处理的公告内容分析方法的处理精度依赖于公告的规范程度,因此目前的公告内容分析方案的处理精度较低。

因此,如何提高对公告的处理精度,实现高准确性的公告内容分析是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种公告内容分析方法、系统、一种存储介质及一种电子设备,能够提高对公告的处理精度,实现高准确性的公告内容分析。

为解决上述技术问题,本申请提供一种公告内容分析方法,该公告内容分析方法包括:

对目标公告中的元素进行标注得到所述目标公告的篇章结构;

根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;

根据所述特征工程生成所述目标公告的知识图谱;

若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。

可选的,所述对目标公告中的元素进行标注得到所述目标公告的篇章结构,包括:

对所述目标公告中的目录、段落、表格和自定义元素进行标注得到所述目标公告的篇章结构。

可选的,根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程,包括:

根据所述篇章结构对所述目标公告进行预处理,得到元素特征;其中,所述元素特征包括元素实体、实体关系、关键词、关键词的TF-IDF值、段落位置信息、段落的文本语义向量、段落与每一级标题的相似度中的任一项或任几项的组合;

按照所述元素特征与所述元素的对应关系存储所述元素特征,得到每一所述元素对应的特征工程。

可选的,根据所述特征工程生成所述目标公告的知识图谱,包括:

构建所述目标公告的公告内容分析模型;其中,所述公告内容分析模型包括定位功能模块、抽取功能模块、分类功能模块和计算功能模块,所述定位功能模块用于对查询内容进行定位,所述抽取功能模块用于抽取查询条件对应的信息,所述分类功能模块用于输出查询问题对应的分类结果,所述计算功能模块用于计算查询问题对应的计算结果;

将每一所述元素和相邻元素的特征工程输入所述公告内容分析模型,对所述公告内容分析模型进行训练,得到模型处理结果;

根据所述模型处理结果生成所述指示图谱。

可选的,在对所述公告内容分析模型进行训练的过程中,还包括:

对所述定位功能模块、所述抽取功能模块、所述分类功能模块和所述计算功能模块的训练过程进行可视化处理,以便在用户界面上显示所述定位功能模块的定位结果、所述抽取功能模块的抽取结果、所述分类功能模块的分类结果和所述计算功能模块的计算结果。

可选的,在对所述公告内容分析模型进行训练之后,还包括:

接收用户对所述定位结果、所述抽取结果、所述分类结果和所述计算结果的修正结果,根据所述修正结果对所述公告内容分析模型进行增量训练。

可选的,根据所述特征工程生成所述目标公告的知识图谱,包括:

根据所述元素构建正则表达式的四则运算规则,利用所述四则运算规则对所述特征工程进行规则匹配,并对命中所述四则运算规则的文本进行标记;

根据所述规则匹配结果生成所述目标公告的知识图谱。

本申请还提供了一种公告内容分析系统,该系统包括:

标注模块,用于对目标公告中的元素进行标注得到所述目标公告的篇章结构;

特征提取模块,用于根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;

知识图谱生成模块,用于根据所述特征工程生成所述目标公告的知识图谱;

公告分析模块,用于若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。

本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述公告内容分析方法执行的步骤。

本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述公告内容分析方法执行的步骤。

本申请提供了一种公告内容分析方法,包括:对目标公告中的元素进行标注得到所述目标公告的篇章结构;根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;根据所述特征工程生成所述目标公告的知识图谱;若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。

本申请通过对目标公告中的元素进行标注得到篇章结构,进而基于篇章结构提取目标公告中每一元素的特征工程。特征工程中可以包括每一元素的特征信息,本申请利用特征工程可以生成所述目标公告的知识图谱,知识图谱中包括目标公告中的所有知识信息。在接收到公告内容分析请求后,可以利用知识图谱直接输出公告内容分析请求对应的分析结果。本申请基于目标公告的篇章结构生成知识图谱,将篇章结构的语义知识嵌入知识图谱,因此本申请能够提高对公告的处理精度,实现高准确性的公告内容分析。本申请同时还提供了一种公告内容分析系统、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种公告内容分析方法的流程图;

图2为本申请实施例所提供的一种公告内容分析系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面请参见图1,图1为本申请实施例所提供的一种公告内容分析方法的流程图。

具体步骤可以包括:

S101:对目标公告中的元素进行标注得到所述目标公告的篇章结构;

其中,本实施例中的分析对象目标公告可以为上市公司披露公告、招股书等公告,此处不对公告的类型和内容进行限定。目标公告中可以包括目录、段落和表格等元素,本实施例可以通过元素标签标注模型对目标公告中的元素进行标注,得到目标公告的篇章结构。

具体的,本实施例可以对所述目标公告中的目录、段落、表格和自定义元素进行标注得到所述目标公告的篇章结构。

S102:根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;

其中,在得到目标公告的篇章结构之后,本步骤根据篇章结构提取目标公告的元素特征,并将每一元素对应的所有元素特征作为该元素的特征工程。

具体的,本实施例可以通过以下方式得到每一元素的特征工程:根据所述篇章结构对所述目标公告进行预处理,得到元素特征;按照所述元素特征与所述元素的对应关系存储所述元素特征,得到每一所述元素对应的特征工程。

上述元素特征包括元素实体、实体关系、关键词、关键词的TF-IDF(termfrequency–inverse document frequency,词频–逆文本频率指数)值、段落位置信息、段落的文本语义向量、段落与每一级标题的相似度中的任一项或任几项的组合。本实施例可以预先设置实体表和关键词表,基于实体表确定目标公告中的元素实体,基于关键词表查询目标公告中的关键词。例如,实体表中可以包括了公司名、人名、时间、地点、产品、事件、属性和行业等实体名词。实体关系指实体之间的关系,例如目标公告中存在文本“A公司为B公司提供商品原材料”,此时实体“A公司”与实体“B公司”之间的实体关系为供应商关系。

S103:根据所述特征工程生成所述目标公告的知识图谱;

其中,特征工程以元素为单位进行存储,特征工程中包含有目标公告中每一元素的特征信息,因此根据特征工程生成的知识图谱中嵌入了目标公告篇章结构的语义知识。

作为一种可行的实施方式,本实施例可以通过训练机器学习模型生成目标公告的知识图谱,本实施还可以通过构建正则表达式的四则运算规则生成目标公告的知识图谱。

S104:若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。

其中,知识图谱中嵌入有篇章结构的语义知识,因此在接收到公告内容分析请求之后,可以对知识图谱进行图计算得到公告内容分析请求对应的分析结果。通过解析公告内容分析请求可以得到查询内容、查询条件和查询问题中的任一项或任几项的组合。例如,该公告内容分析请求为判断目标公告是否存在投资风险的请求时,本实施例可以通用过知识图谱判断目标公告是否存在投资风险。

本实施例通过对目标公告中的元素进行标注得到篇章结构,进而基于篇章结构提取目标公告中每一元素的特征工程。特征工程中可以包括每一元素的特征信息,本实施例利用特征工程可以生成所述目标公告的知识图谱,知识图谱中包括目标公告中的所有知识信息。在接收到公告内容分析请求后,可以利用知识图谱直接输出公告内容分析请求对应的分析结果。本实施例基于目标公告的篇章结构生成知识图谱,将篇章结构的语义知识嵌入知识图谱,因此本实施例能够提高对公告的处理精度,实现高准确性的公告内容分析。

下面通过在实际应用中的实施例说明上述实施例描述的流程,本实施例提供了一种面向篇章结构的公告可视化标注和训练方案,本实施例针对领域知识和公告篇章结构,构建一个可视化的标注及训练系统,该系统能够预先计算公告篇章和语义等不同粒度的特征,针对公告挖掘流程,进行模型训练、预测以及结果修正,并实现增量训练从而满足复杂文本的处理需求。本实施例可以包括以下步骤:

步骤1:在篇章结构的基础上,针对每个元素进行标注,标注的标签能够自定义如目录(层次)、段落、表格、其他自定义标签等,最终得到目标公告的篇章结构。

步骤2:对元素进行预处理,得到每个元素(目录、段落、表格)的实体、关系、关键词及tfidf、位置信息(相对标题、表格的位置)、文本语义向量、与各级标题的相似度等各种特征的计算结果,以便构建篇章结构中各种要素的特征工程。这些特征工程以元素为单元进行存储,并能够以对象和属性的方式在下文的规则和脚本中进行调用。

其中,上述元素的实体可以包括公司名、人名、时间、地点、产品、事件、属性、行业等,关系可以包括时间、属性和属性值的关系,tfidf指关键词的tfidf,位置信息是段落在文档里的坐标。特征工程指预处理的结果,其作用就是为后面的调用或者机器学习提供输入。具体的,可以通过编程语言中的反射机制来实现特征工程的调用。

步骤3:构建公告的挖掘任务流程定位、抽取、分类和计算,在上述特征工程的基础上,基于神经网络构建可视化的模型训练方式,各元素参与训练时,除了各元素自己的特征外,还可以引入该元素的上下文元素的特征,实现特征增强。

具体的,本步骤的实现过程如下:构建所述目标公告的公告内容分析模型;其中,所述公告内容分析模型包括定位功能模块、抽取功能模块、分类功能模块和计算功能模块,所述定位功能模块用于对查询内容进行定位,所述抽取功能模块用于抽取查询条件对应的信息,所述分类功能模块用于输出查询问题对应的分类结果,所述计算功能模块用于计算查询问题对应的计算结果;将每一所述元素和相邻元素的特征工程输入所述公告内容分析模型,对所述公告内容分析模型进行训练,得到模型处理结果,以便根据所述模型处理结果生成所述指示图谱。分类功能模块可以根据查询问题直接输出结果,计算功能模块可以根据查询问题执行至少一步计算操作再输出结果。

在在对所述公告内容分析模型进行训练之后,还可以接收用户对所述定位结果、所述抽取结果、所述分类结果和所述计算结果的修正结果,根据所述修正结果对所述公告内容分析模型进行增量训练。

步骤4:面向元素构建可视化正则表达式的四则运算,规则计算结果也可以作为该元素的特征之一,能够实现一个或多个公告的实时计算。通过ORM(Object RelationalMapping,对象关系映射)统一访问内容元素和规则,规则中可以使用映射对象的方式来调用内容元素,实现上下文特征的表达;在规则引擎执行前增加解释器,将上下文映射对象转换为值,以方便执行。当规则命中文本时,可以将上下文和当前文本通过不同颜色高亮,方便开发人员对规则进行分析和优化。

具体的,本步骤的实现过程如下:根据所述元素构建正则表达式的四则运算规则,利用所述四则运算规则对所述特征工程进行规则匹配,并对命中所述四则运算规则的文本进行标记,以便根据所述规则匹配结果生成所述目标公告的知识图谱。本步骤中的面向元素,可以通过步骤2中的“以对象和属性的方式在下文的规则和脚本中进行调用”实现。

步骤5:在上述基础上,将定位、抽取、分类和计算流程构建为可视化的pipline过程,以实现可视化预测结果。将修正预测结果后将数据加载回语料及模型实现增量训练,该过程产生的数据主要包括篇章结构表(目录、段落和表格的位置和索引)、要素预处理特征表、表格内容表、文本实体和关系表、要素标注表以及预测结果。

具体的,在对所述公告内容分析模型进行训练的过程中,还可以对所述定位功能模块、所述抽取功能模块、所述分类功能模块和所述计算功能模块的训练过程进行可视化处理,以便在用户界面上显示所述定位功能模块的定位结果、所述抽取功能模块的抽取结果、所述分类功能模块的分类结果和所述计算功能模块的计算结果。

步骤6:按照金融证券领域知识和上述篇章结构,构建一个领域本体库,将处理结果加载到知识图谱中,通过知识图谱及图计算实现判定公告中蕴含的风险。

其中,本体库是指元素和对应的特征工程中的列,处理结果就是指每个公告里的具体元素和特征工程中的行,图计算的对象是本体库和结果。

本实施例提出了融合篇章、字面和语义等不同粒度的多任务处理方案,通过公告一体化预处理、训练和预测方法,提升了公告挖掘的效率;本实施例还提出了可视化的公告处理方法及系统,该方案沉淀了公告处理的知识体系,降低了开发工作量。

请参见图2,图2为本申请实施例所提供的一种公告内容分析系统的结构示意图;

该系统可以包括:

标注模块201,用于对目标公告中的元素进行标注得到所述目标公告的篇章结构;

特征提取模块202,用于根据所述篇章结构提取所述目标公告的元素特征得到每一所述元素的特征工程;

知识图谱生成模块203,用于根据所述特征工程生成所述目标公告的知识图谱;

公告分析模块204,用于若接收到公告内容分析请求,则利用所述知识图谱输出所述公告内容分析请求对应的分析结果。

本实施例通过对目标公告中的元素进行标注得到篇章结构,进而基于篇章结构提取目标公告中每一元素的特征工程。特征工程中可以包括每一元素的特征信息,本实施例利用特征工程可以生成所述目标公告的知识图谱,知识图谱中包括目标公告中的所有知识信息。在接收到公告内容分析请求后,可以利用知识图谱直接输出公告内容分析请求对应的分析结果。本实施例基于目标公告的篇章结构生成知识图谱,将篇章结构的语义知识嵌入知识图谱,因此本实施例能够提高对公告的处理精度,实现高准确性的公告内容分析。

进一步的,标注模块201用于对所述目标公告中的目录、段落、表格和自定义元素进行标注得到所述目标公告的篇章结构。

进一步的,特征提取模块202用于根据所述篇章结构对所述目标公告进行预处理,得到元素特征;其中,所述元素特征包括元素实体、实体关系、关键词、关键词的TF-IDF值、段落位置信息、段落的文本语义向量、段落与每一级标题的相似度中的任一项或任几项的组合;还用于按照所述元素特征与所述元素的对应关系存储所述元素特征,得到每一所述元素对应的特征工程。

进一步的,知识图谱生成模块203包括:

模型训练单元,用于构建所述目标公告的公告内容分析模型;其中,所述公告内容分析模型包括定位功能模块、抽取功能模块、分类功能模块和计算功能模块,所述定位功能模块用于对查询内容进行定位,所述抽取功能模块用于抽取查询条件对应的信息,所述分类功能模块用于输出查询问题对应的分类结果,所述计算功能模块用于计算查询问题对应的计算结果;还用于将每一所述元素和相邻元素的特征工程输入所述公告内容分析模型,对所述公告内容分析模型进行训练,得到模型处理结果;还用于根据所述模型处理结果生成所述指示图谱。

进一步的,还包括:

可视化单元,用于在对所述公告内容分析模型进行训练的过程中,对所述定位功能模块、所述抽取功能模块、所述分类功能模块和所述计算功能模块的训练过程进行可视化处理,以便在用户界面上显示所述定位功能模块的定位结果、所述抽取功能模块的抽取结果、所述分类功能模块的分类结果和所述计算功能模块的计算结果。

进一步的,还包括:

增量训练单元,用于在对所述公告内容分析模型进行训练之后,接收用户对所述定位结果、所述抽取结果、所述分类结果和所述计算结果的修正结果,根据所述修正结果对所述公告内容分析模型进行增量训练。

规则匹配单元,用于根据所述元素构建正则表达式的四则运算规则,利用所述四则运算规则对所述特征工程进行规则匹配,并对命中所述四则运算规则的文本进行标记;还用于根据所述规则匹配结果生成所述目标公告的知识图谱。

由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于大数据的教学系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!