基于html的信息智能提取技术的方法

文档序号:1287555 发布日期:2020-08-28 浏览:6次 >En<

阅读说明:本技术 基于html的信息智能提取技术的方法 (HTML-based information intelligent extraction technology method ) 是由 佘俊 周宇鹏 余少锋 麻建超 廖崇阳 柳本林 罗勇 于 2020-01-15 设计创作,主要内容包括:本发明属信息处理技术领域,特别涉及一种基于HTML的信息智能提取技术的方法,本方法根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,建立实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体;最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。通过本方法得到结构化文本,使得信息可分析和统计,极大的为研究工作提供了全数据的分析环境。(The invention belongs to the technical field of information processing, and particularly relates to a method for information intelligent extraction technology based on HTML (hypertext markup language). The method comprises the steps of extracting a plurality of entity candidates and a plurality of attribute candidates from a target corpus according to a plurality of entity seeds in an entity seed set, establishing an incidence relation between an entity and an attribute, and determining at least one target entity from the plurality of entities respectively; finally, storing the extracted target entity in a target entity set, storing the extracted target attribute in a target attribute set associated with the target entity, merging adjacent semantically-associated lines into paragraphs, and independently forming the lines which are not semantically associated with the adjacent lines into the paragraphs to obtain the structured text; establishing a key information form containing key words; and obtaining key information through the characteristics, and writing the key information into the key information form to finish key information extraction. The structured text is obtained by the method, so that the information can be analyzed and counted, and a full-data analysis environment is greatly provided for research work.)

基于HTML的信息智能提取技术的方法

技术领域

本发明属于信息处理技术领域,特别涉及一种基于HTML的信息智能提取技术的方法。

背景技术

随着电子技术的快速发展和大数据时代的到来,越来越多的数据以超文本标记语言的形式存储在信息系统中,通过自然语言处理技术对超文本标记语言(英文:HyperTextMarkup Language;简称:HTML)进行处理为结构化文本,而从HTML文本中提取实体与属性是将非结构化文本转化为结构化文本的重要步骤。

对于大量的非结构化文本,采取人工阅读,人工理解的方式,存在工作量大,理解带有主观性等问题。因此,如何将非结构化数据转换成计算机可理解的结构化数据并快速准确地从中自动提取关键信息成为亟待解决的技术问题。在非结构化文本转化为结构化文本的过程中,通常将实体提取与属性提取分成独立的两个阶段进行。具体实施时,首先,根据给定目标类别的实体种子集中的实体种子在给定非结构化文本中提取实体候选,根据实体候选在给定语料中的上下文计算实体候选与实体种子的相似度,将实体候选中与实体种子的相似度大于预设相似度的实体候选作为目标实体,然后,根据给定的属性种子集中的属性种子,在该给定语料中提取属性候选,根据属性候选在该给定语料中的上下文计算属性候选与属性种子的相似度,将属性候选中与属性种子的相似度大于预设相似度的属性候选作为目标属性,由于相似度设定需人为设定,在信息提取过程中往往存在“语义漂移“的问题。

另外,现有技术在HTML的信息抽取环节,根据给出的页面预处理以及抽取规则设置,输出结构化的信息组以便查询分析。但这种方法未对关键信息作出提取,推送给用户的信息仍然是完整文件,无法快速准确提取关键信息。

发明内容

为了解决信息提取过程存在“语义漂移”及无法提取关键信息的问题,本发明提供一种基于HTML的信息智能提取技术的方法。

本发明所采用的的技术方案如下:

根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;

根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;

根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性。

根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;

根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;

根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;

最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。

所述实体种子集由属于目标类别的多个实体种子构成;

根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;

根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;

根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;

根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性。

本发明提供的基于HTML的信息智能提取技术的方法,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果;同时,本方法通过特征能快速准确获取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。通过本方法得到结构化文本,使得信息可分析和统计,极大的为研究工作提供了全数据的分析环境。

具体实施方式

实施例1:根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。

4页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:自适应表单检索方法、装置、介质及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!