国际组织科技文本词汇链自动构建与主题发现方法

文档序号:191251 发布日期:2021-11-02 浏览:24次 >En<

阅读说明:本技术 国际组织科技文本词汇链自动构建与主题发现方法 (Automatic construction and theme discovery method for international organization science and technology text vocabulary chain ) 是由 宋培彦 龙晨翔 冯超慧 于 2021-06-15 设计创作,主要内容包括:本发明公开了一种基于国际组织术语库的科技文本词汇链构建与主题发现方法,涉及信息科学与知识工程技术领域。针对常规方法难以处理术语等低频词的问题,该方法基于国际组织术语库构建了科技文本的术语词汇链,进一步对文本进行了相似度判别、聚类和主题发现,并基于国际组织术语库的多语种特性,以词汇链为线索、将所在语篇翻译成中文,最终用于国际前沿科技情报动态监测。相比于传统的基于统计学的文本分析方法,该方法基于国际组织术语库,具有权威性、高准确度、语义关联紧密、跨语言等特性,为进行科技文本主题的自动发现、融合、推理和计算提供了良好的知识基础,能够有效支撑相关工程应用。(The invention discloses a scientific and technological text vocabulary chain construction and topic discovery method based on an international organization and art library, and relates to the technical field of information science and knowledge engineering. Aiming at the problem that low-frequency words such as terms and the like are difficult to process by a conventional method, the method constructs a term vocabulary chain of a scientific and technological text based on an international organization term library, further performs similarity discrimination, clustering and topic discovery on the text, translates the language to Chinese by taking the vocabulary chain as a clue based on the multilingual characteristics of the international organization term library, and is finally used for dynamic monitoring of international leading-edge scientific and technological information. Compared with the traditional text analysis method based on statistics, the method is based on the international organization term library, has the characteristics of authority, high accuracy, close semantic association, cross-language and the like, provides a good knowledge base for automatic discovery, fusion, reasoning and calculation of science and technology text topics, and can effectively support relevant engineering application.)

国际组织科技文本词汇链自动构建与主题发现方法

技术领域

本发明涉及信息科学与知识工程技术领域,尤其涉及一种基于词汇链的主题标引方法。

背景技术

国际组织科技文本是指具有一定规模的跨国组织发布的特定领域的科技文本,其具有权威性、新颖性、价值高等特性,反映了全球领域内科研的前沿动态,具有极高的情报价值。因此对其进行主题发现具有重大意义。

现有的主题发现方法一是专家分析,这种方法依赖于专家的领域权威性、专业相关性和研究活跃度等,具有主观程度高、效率低、成本高等问题,难以满足海量的国际组织科技文本主题发现的需求;二是基于统计的自动分析方法,例如TF-IDF、TextRank、LDA等,这类方法成本低,计算效率高,但基于简单的统计分析使得对主题的揭示程度有限,且在面对科技文本中存在着众多的低频术语词时,基于统计学的方法难以对其进行处理。同时,上述两类方法在面对国际组织文本时,还将面临不同语言的转换问题。

发明内容

本发明的目的在于提供一种国际组织科技文本词汇链自动构建与主题发现方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明采用的技术方案如下:

国际组织科技文本词汇链自动构建与主题发现方法,包括如下步骤:

S1,基于国际组织术语库,构造国际组织科技文本每一段的术语词汇链;

S2,基于构建好的词汇链,计算段落间的语义相似度;

S3,基于段落间的语义相似度,对段落进行聚类;

S4,选取每一类的优选词作为对应类的主题词;

S5,基于国际组织术语库,将每一类的词汇链、主题词翻译为多种语言。

优选地,S1包括如下步骤:

S101,获取国际组织发布的科技文本并对其进行预处理(一般为英文),包括段落切分、停用词过滤等步骤,其中重点是:以国际组织术语库作为计算机可读的知识库,用于对科技文本术语的识别,用于对专业知识纳入词汇链;

S102,计算分词后的术语的TF-IDF值,并选取TF-IDF值高于设定阈值的术语作为每一段的词汇链的候选词;

S103,取候选词Wi为词汇链Lk的初始值;

S104,若候选词Wj与词汇链Lk中词语的加权相似度大于特定阈值,则将候选词Wj加入词汇链Lk,若候选词Wj未加入任一已有词汇链,则新增词汇链Lk+1,并将候选词Wj纳入其中;

S105,重复S104,直至候选词中每个词都加入词汇链;

S106,对得到的词汇链合集{Lk}进行优选,即将长度低于3的词汇链剔除,最终得到每一段优选后的词汇链合集。

优选地,S104中候选词Wj与词汇链Lk中词语的加权相似度计算方法为:

S1041,计算候选词Wj与词汇链Lk中每个词语Wki的语义相似度sim(Wj,Wki),公式如下:

国际组织术语库不是一简单的词表,而是一包含了词语间语义关系的语义层次树,基于两个词语在层次树中的深度信息和密度信息可计算词语间的语义相似度。具体得看,上式中表示两个词语的深度信息,h为层次树的总深度,d为两个词语的层次距离,并引入两个词语的最小公共节点

LCN(leastcommonnode)概念,l即为LCN的层次,以保证LCN越大,两个词语的相似度越高;为两个词语的密度信息,

S1042,将词汇链Lk中每个词语的的TF-IDF值归一化,并作为该词的权值fki

S1043,计算候选词Wj与词汇链Lk中词语的加权相似度sim(Wj,Lk):

优选地,S2包括如下步骤:

S201,构建两段文本对应词汇链中词语的语义相似度矩阵,其中词语间的语义相似度计算方法同S1041;

S202,构建两段文本对应词汇链中词语的词对权值矩阵,其中词对权值计算方法为:将两个词语的TF-IDF值相乘并做归一化处理;

S203,将语义相似度矩阵和词对权值矩阵中同样位置的元素进行相乘,得到两段文本对应词汇链中词语的加权相似度矩阵;

S204,将加权相似度矩阵中的每个值相加,将得到的值作为两段文本的语义相似度。

优选地,S3包括如下步骤:

S301,设段i为类j的初始值;

S302,若段k与类j中已有段落的平均相似度大于特定阈值,则将段k聚在类j中,若段k未被聚于任一已有类中,则新增类j+1,并将段k纳入其中;

S303,重复S302,直至所有段落均在某类中。

优选地,S4包括如下步骤:

S401,在某一类中,计算该类的词汇链中的词Wi与类中所有词语的加权相似度si

S402,若词Wi的加权相似度si大于设定阈值,则选取词Wi为本类的主题词;

S403,对该类的词汇链中的每一个词重复步骤S401、S402,得到该类的主题词集{Wi};

S404,将主题词集{Wi}中词语Wi的加权相似度si进行归一化得到si’,即为此词对该类的主题的揭示程度;

S405,将每一类的主题进行表示,如下样式:

优选地,S401包括如下步骤:

S4011,计算词Wi与类中所有词语{Wj}的语义相似度sij,其中词语间的语义相似度计算方法同S1041;

S4012,计算词Wj在类中的权值,计算方法为:将词Wj的TF-IDF值归一化,归一化后的值可作为权值tj

S4013,计算词Wi与类中所有词语{Wj}的加权相似度si,si的计算公式如下:

S5,基于国际组织术语库中的多语言翻译关系,将每一类的词汇链、主题词翻译为目标语言,便于用户使用。

本发明的有益效果是:本发明基于国际组织术语库,构造了科技文本的术语词汇链,计算了段落间的语义相似度,进一步对其聚类,并对文本进行了多语言的主题标引,从而实现了多维度的国际组织科技文本的主题分析;在国际组织术语库的支持下,对术语进行了较高水平的语义知识挖掘与发现,并解决了国际组织文本的跨语言服务问题,最终实现了国际前沿科技情报动态监测。

附图说明

图1是国际前沿科技情报动态监测示意图;

图2是技术流程图;

图3是术语词汇链构建流程图;

图4是词汇链相似度矩阵示意图。

图5是以翻译成中文以后的词汇链词汇共现弦图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

国际组织发布的科技文本表征了当前国际科研前沿动态,对其进行自动化的主题发现具有重要的应用价值。本发明以知识组织理论为基础,将国际组织术语库作为一类重要的术语知识库,通过多样化且逻辑语义致密的知识组织方法,对国际组织科技文本跨语言的多维主题挖掘,实现了国际科技情报的动态监测,如图1。

国际组织术语库采集了联合国教科文组织、世界卫生组织、国际劳工组织等十余个政府间国际组织发布的术语资源,具有高权威性、高准确度、知识密集、语义关联紧密、多语言的特性,能够较好的识别科技文本中的术语主题,并可实现文本主题发现,因此适于对国际组织发布的科技文本进行监测。

词汇链是文本中提取出来的一系列意义相近的词汇关联而成的语义链。词汇链反映了词的集聚性,其中蕴含了文本结构和主题信息。在本发明中,除了通过构造术语词汇链来反映科技文本的主题信息,还通过词汇链来进行文本的相似度计算、聚类与主题词的选择,从多维、多语言层次对科技文本进行了主题挖掘。

面对数量巨大、专业复杂、动态变化的科技文本,基于知识组织的概念和语义关系模型,构建语义关联紧密、共享方便、更新快捷的科技文本主题挖掘模型,最终实现从海量文本中快速、准确地对主题信息进行组织和发现。

如图2所示,本发明实施例提供了一种基于国际组织术语库的科技文本主题发现方法,包括如下步骤:

S1,基于国际组织术语库,构造国际组织科技文本每一段的术语词汇链;

S2,基于构建好的词汇链,计算段落间的语义相似度;

S3,基于段落间的语义相似度,对段落进行聚类;

S4,选取每一类的优选词作为对应类的主题词;

S5,基于国际组织术语库,将每一类的词汇链、主题词翻译为多种语言。

在本发明的一个优选实施例中,S1可以包括如下步骤(如图3):

S101,获取国际组织发布的科技文本并对其进行预处理(一般为英文),包括段落切分、停用词过滤等步骤,其中重点是:以国际组织术语库作为计算机可读的知识库,用于对科技文本术语的识别,用于对专业知识纳入词汇链;

S102,计算分词后的术语的TF-IDF值,并选取TF-IDF值高于设定阈值的术语作为每一段的词汇链的候选词;

S103,取候选词Wi为词汇链Lk的初始值;

S104,若候选词Wj与词汇链Lk中词语的加权相似度大于特定阈值,则将候选词Wj加入词汇链Lk,若候选词Wj未加入任一已有词汇链,则新增词汇链Lk+1,并将候选词Wj纳入其中;

S105,重复S104,直至候选词中每个词都加入词汇链;

S106,对得到的词汇链合集{Lk}进行优选,即将长度低于3的词汇链剔除,最终得到每一段优选后的词汇链合集。

S104中候选词Wj与词汇链Lk中词语的加权相似度计算方法为:

S1041,计算候选词Wj与词汇链Lk中每个词语Wki的语义相似度sim(Wj,Wki),公式如下:

国际组织术语库不是一简单的词表,而是一包含了词语间语义关系的语义层次树,基于两个词语在层次树中的深度信息和密度信息可计算词语间的语义相似度。具体得看,上式中表示两个词语的深度信息,h为层次树的总深度,d为两个词语的层次距离,并引入两个词语的最小公共节点

LCN(leastcommonnode)概念,l即为LCN的层次,以保证LCN越大,两个词语的相似度越高;为两个词语的密度信息,

S1042,将词汇链Lk中每个词语的的TF-IDF值归一化,并作为该词的权值fki

S1043,计算候选词Wj与词汇链Lk中词语的加权相似度sim(Wj,Lk):

本发明实施例中,S2可以包括如下步骤:

S201,构建两段文本对应词汇链中词语的语义相似度矩阵,其中词语间的语义相似度计算方法同S1041;

S202,构建两段文本对应词汇链中词语的词对权值矩阵,其中词对权值计算方法为:将两个词语的TF-IDF值相乘并做归一化处理;

S203,将语义相似度矩阵和词对权值矩阵中同样位置的元素进行相乘,得到两段文本对应词汇链中词语的加权相似度矩阵,如图4;

S204,将加权相似度矩阵中的每个值相加,将得到的值作为两段文本的语义相似度。

本发明实施例中,S3可以包括如下步骤:

S301,设段i为类j的初始值;

S302,若段k与类j中已有段落的平均相似度大于特定阈值,则将段k聚在类j中,若段k未被聚于任一已有类中,则新增类j+1,并将段k纳入其中;

S303,重复S302,直至所有段落均在某类中。

本发明实施例中,S4可以包括如下步骤:

S401,在某一类中,计算该类的词汇链中的词Wi与类中所有词语的加权相似度si

S402,若词Wi的加权相似度si大于设定阈值,则选取词Wi为本类的主题词;

S403,对该类的词汇链中的每一个词重复步骤S401、S402,得到该类的主题词集{Wi};

S404,将主题词集{Wi}中词语Wi的加权相似度si进行归一化得到si’,即为此词对该类的主题的揭示程度;

S405,将每一类的主题进行表示,如下样式:

其中,S401具体步骤如下:

S4011,计算词Wi与类中所有词语{Wj}的语义相似度sij,其中词语间的语义相似度计算方法同S1041;

S4012,计算词Wj在类中的权值,计算方法为:将词Wj的TF-IDF值归一化,归一化后的值可作为权值tj

S4013,计算词Wi与类中所有词语{Wj}的加权相似度si,si的计算公式如下:

具体实施例:

本发明实施例选取了世界卫生组织网站的新闻稿(https://www.who.int/zh/news)作为目标文本,对其构造术语词汇链并进行主题分析,包括如下步骤:

S1,构造目标文本每一段的词汇链:首先获取目标文本并进行预处理(包括分词、停用词过滤等);然后以段落为基本单元,选取每一段文本的高频术语词作为词汇链的候选词;设定词汇链初始值,并根据候选词与词汇链中词语的平均相似度的高低来判断是否将候选词加入词汇链;最后对词汇链进行优化,将长度过短的词汇链剔除。

S2,基于构建好的词汇链,计算段落间的语义相似度,具体步骤如下:首先构建两段文本对应词汇链中词语的语义相似度矩阵;其次构建两段文本对应词汇链中词语的词对权值矩阵,其中词对权值计算方法为:将两个词语的TF-IDF值相乘并做归一化处理;然后将语义相似度矩阵和词对权值矩阵中同样位置的元素进行相乘,得到两段文本对应词汇链中词语的加权相似度矩阵;最后将加权相似度矩阵中的每个值相加,将得到的值作为两段文本的语义相似度。

S3,基于段落间的语义相似度,对段落进行聚类:首先设段i为类j的初始值;其次,若段k与类j中已有段落的平均相似度大于特定阈值,则将段k聚在类j中,若段k未被聚于任一已有类中,则新增类j+1,并将段k纳入其中;重复上述步骤,直至所有段落均在某类中。

S4,选取每一类的优选词作为对应类的主题词,优选策略如下:在某一类中,首先计算该类的词汇链中的词Wi与类中所有词语的加权相似度si;其次,若词Wi的加权相似度si大于设定阈值,则选取词Wi为本类的主题词;对该类的词汇链中的每一个词重复以上步骤,得到该类的主题词集{Wi};然后将主题词集{Wi}中词语Wi的加权相似度si进行归一化得到si’,即为此词对该类的主题的揭示程度;最后将每一类的主题进行表示,如下样式:

S5,基于国际组织术语库,将每一类的词汇链、主题词翻译为多种语言,并揭示其语义关联性,可用于主题标引或知识监测,如图5。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:针对常规方法难以处理术语等低频词的问题,该方法基于国际组织术语库构建了科技文本的术语词汇链,进一步对文本进行了相似度判别、聚类和主题发现,并基于国际组织术语库的多语种特性,以词汇链为线索、将所在语篇翻译成中文,最终用于国际前沿科技情报动态监测。相比于传统的基于统计学的文本分析方法,该方法基于国际组织术语库,具有权威性、高准确度、语义关联紧密、跨语言等特性,为进行科技文本主题的自动发现、融合、推理和计算提供了良好的知识基础,较好地满足了国际科技前沿动态的情报监测和知识服务需求。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于词语解释的文本增强的方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!