语义角色标注方法、装置、电子设备和计算机可读介质

文档序号:361615 发布日期:2021-12-07 浏览:6次 >En<

阅读说明:本技术 语义角色标注方法、装置、电子设备和计算机可读介质 (Semantic role labeling method and device, electronic equipment and computer readable medium ) 是由 钱叶 于 2020-11-13 设计创作,主要内容包括:本公开的实施例公开了语义角色标注方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:提取目标文本对应的词集中每个词在该目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取该第一词向量集中每个第一词向量的该目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对该第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。该实施方式通过多次提取文本中各个词的上下文信息,可以提高文本语义标注的准确率。(The embodiment of the disclosure discloses a semantic role labeling method, a semantic role labeling device, electronic equipment and a computer readable medium. One embodiment of the method comprises: extracting context associated information of each word in a word set corresponding to a target text in the target text to generate a first word vector to obtain a first word vector set; extracting context associated information of the target text of each first word vector in the first word vector set to generate a second word vector to obtain a second word vector set; and performing semantic role labeling on the words corresponding to each second word vector in the second word vector set to generate words labeled with semantic roles, so as to obtain a word set labeled with semantic roles. According to the embodiment, the context information of each word in the text is extracted for multiple times, so that the accuracy of text semantic annotation can be improved.)

语义角色标注方法、装置、电子设备和计算机可读介质

技术领域

本公开的实施例涉及计算机技术领域,具体涉及语义角色标注方法、装置、电子设备和计算机可读介质。

背景技术

目前,语义角色标注(Semantic Role Labeling,SRL)可以是以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,而是对分析句子中各成分与谓词之间的关系。即句子的谓词(Predicate)-论元(Argument)结构,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。目前,在对文本进行语义角色标注时,通常采用的方式为:利用深度学习获取文本的特征,然后将特征结果输入至条件随机场中,通过条件随机场输出概率最大标签序列。

然而,当采用上述方式对文本进行语义角色标注时,经常会存在如下技术问题:

第一,在利用深度学习获取文本的特征时,不能很好的保留文本上下文信息。进而,影响了语义标注的结果。提取的文本上下文信息中存在部分冗余信息。

第二,不能有效的去除文本上下文信息中包含的很多冗余的信息,这些冗余的信息的存在会对文本处理的下游任务造成干扰。

发明内容

本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的

具体实施方式

包括:提取目标文本对应的词集中每个词在该目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取该第一词向量集中每个第一词向量的该目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对该第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。该实施方式通过多次提取文本中各个词的上下文信息,可以提高文本语义标注的准确率。 ">

为遏制恶意抓取行为,请关注公众号获取访问口令


二维码

微信扫二维码关注公众号,发送“口令”获取

提交

提示:只需正确输入一次口令,该弹窗便不再弹出!

CN113761836A - 语义角色标注方法、装置、电子设备和计算机可读介质 - Google Patents

语义角色标注方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN113761836A
CN113761836A CN202011270283.3A CN202011270283A CN113761836A CN 113761836 A CN113761836 A CN 113761836A CN 202011270283 A CN202011270283 A CN 202011270283A CN 113761836 A CN113761836 A CN 113761836A
Authority
CN
China
Prior art keywords
word
word vector
vector set
vector
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011270283.3A
Other languages
English (en)
Inventor
钱叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011270283.3A priority Critical patent/CN113761836A/zh
Publication of CN113761836A publication Critical patent/CN113761836A/zh
Pending legal-status Critical Current

Links

  • 238000002372 labelling Methods 0.000 title claims abstract description 53
  • 230000000875 corresponding Effects 0.000 claims abstract description 52
  • 238000010606 normalization Methods 0.000 claims description 20
  • 238000000605 extraction Methods 0.000 claims description 19
  • 238000004590 computer program Methods 0.000 claims description 9
  • 230000002457 bidirectional Effects 0.000 claims description 7
  • 239000000284 extract Substances 0.000 claims description 7
  • 230000001131 transforming Effects 0.000 claims description 4
  • 238000010586 diagram Methods 0.000 description 14
  • 239000000203 mixture Substances 0.000 description 10
  • 230000015654 memory Effects 0.000 description 5
  • 230000001537 neural Effects 0.000 description 5
  • 238000004891 communication Methods 0.000 description 4
  • 230000003287 optical Effects 0.000 description 4
  • 241000288105 Grus Species 0.000 description 3
  • 230000000694 effects Effects 0.000 description 3
  • 238000000034 method Methods 0.000 description 3
  • 230000006403 short-term memory Effects 0.000 description 3
  • 238000004458 analytical method Methods 0.000 description 2
  • 230000000903 blocking Effects 0.000 description 2
  • 238000005516 engineering process Methods 0.000 description 2
  • 230000002708 enhancing Effects 0.000 description 2
  • 230000000644 propagated Effects 0.000 description 2
  • 230000000306 recurrent Effects 0.000 description 2
  • 210000003666 Nerve Fibers, Myelinated Anatomy 0.000 description 1
  • 239000000969 carrier Substances 0.000 description 1
  • 238000006243 chemical reaction Methods 0.000 description 1
  • 239000003795 chemical substances by application Substances 0.000 description 1
  • 125000004122 cyclic group Chemical group 0.000 description 1
  • 239000003365 glass fiber Substances 0.000 description 1
  • 239000004973 liquid crystal related substance Substances 0.000 description 1
  • 230000004048 modification Effects 0.000 description 1
  • 238000006011 modification reaction Methods 0.000 description 1
  • 239000004065 semiconductor Substances 0.000 description 1

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0445Feedback networks, e.g. hopfield nets, associative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0454Architectures, e.g. interconnection topology using a combination of multiple neural nets
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/005Probabilistic networks

Abstract

本公开的实施例公开了语义角色标注方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:提取目标文本对应的词集中每个词在该目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取该第一词向量集中每个第一词向量的该目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对该第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。该实施方式通过多次提取文本中各个词的上下文信息,可以提高文本语义标注的准确率。

Description

语义角色标注方法、装置、电子设备和计算机可读介质

技术领域

本公开的实施例涉及计算机技术领域,具体涉及语义角色标注方法、装置、电子设备和计算机可读介质。

背景技术

目前,语义角色标注(Semantic Role Labeling,SRL)可以是以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,而是对分析句子中各成分与谓词之间的关系。即句子的谓词(Predicate)-论元(Argument)结构,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。目前,在对文本进行语义角色标注时,通常采用的方式为:利用深度学习获取文本的特征,然后将特征结果输入至条件随机场中,通过条件随机场输出概率最大标签序列。

然而,当采用上述方式对文本进行语义角色标注时,经常会存在如下技术问题:

第一,在利用深度学习获取文本的特征时,不能很好的保留文本上下文信息。进而,影响了语义标注的结果。提取的文本上下文信息中存在部分冗余信息。

第二,不能有效的去除文本上下文信息中包含的很多冗余的信息,这些冗余的信息的存在会对文本处理的下游任务造成干扰。

发明内容

本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了语义角色标注方法、装置、设备和计算机可读介质,来解决以上背景技术部分提到的技术问题。

第一方面,本公开的一些实施例提供了一种语义角色标注方法,该方法包括:提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

可选的,提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集,包括:对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对上述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。

可选的,对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集,包括:将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集,其中,上述编码网络包括至少一层编码层。

可选的,提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集,包括:将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。

可选的,对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集,包括:将上述第二词向量集中各个词向量输入至预先训练的条件随机场,得到上述标注语义角色的词集。

可选的,编码层是通过以下步骤生成:将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集;将上述第五词向量集输入至丢弃层,得到第六词向量集;将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集;将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集;将上述第八向量集输入至线性变换层,得到第九向量集;将上述第九词向量集输入至上述丢弃层,得到第十词向量集;将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第十一向量,得到第十一向量集;将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。

第二方面,本公开的一些实施例提供了一种语义角色标注装置,装置包括:第一提取单元,被配置成提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;第二提取单元,被配置成进一步提取上述第一词向量集中每个第一词向量对应的词在上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;语义角色标注单元,被配置成对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

可选的,第一提取单元进一步被配置成:对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对上述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。

可选的,第一提取单元进一步被配置成:将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集,其中,上述编码网络包括至少一层编码层。

可选的,第二提取单元进一步被配置成:将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。

可选的,语义角色标注单元进一步被配置成:将上述第二词向量集中各个词向量输入至预先训练的条件随机场,得到上述标注语义角色的词集。

可选的,上述编码层是通过以下步骤生成:将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集;将上述第五词向量集输入至丢弃层,得到第六词向量集;将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集;将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集;将上述第八向量集输入至线性变换层,得到第九向量集;将上述第九词向量集输入至上述丢弃层,得到第十词向量集;将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第十一向量,得到第十一向量集;将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。

第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。

第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。

本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的语义角色标注方法得到的标注语义角色的词集,语义角色标注的精确度有所提高。具体来说,发明人发现,造成语义角色标注不够精确的原因在于:在利用深度学习获取文本的特征时,不能很好的保留文本上下文信息。进而,影响了语义标注的结果。提取的文本上下文信息中存在部分冗余信息。进而,影响了语义标注的结果。基于此,本公开的一些实施例的语义角色标注方法对目标文本对应的词集中的每个词加强提取在目标文本的上下文信息以此减少文本上下文信息的丢失。除此之外,对于提取的文本上下文信息中存在部分冗余信息。可以通过进一步提取每个词对应向量在目标文本的上下文信息来减少冗余信息。进而,可以提高语义角色标注的精确度。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1是本公开的一些实施例的语义角色标注方法的一个应用场景图的示意图;

图2是根据本公开的语义角色标注方法的一些实施例的流程图;

图3示出了根据本公开的一些实施例的语义角色标注方法中的对目标文本对应词集进行遮挡操作的示意图;

图4示出了根据本公开的一些实施例的语义角色标注方法中的编码网络的示意图;

图5是根据本公开的语义角色标注方法的另一些实施例的流程图;

图6是根据本公开的语义角色标注装置的一些实施例的结构示意图;

图7是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开的一些实施例的语义角色标注方法的一个应用场景图的示意图。

如图1所示,电子设备101可以首先提取目标文本102对应的词集103中每个词在上述目标文本102的上下文关联信息,以生成第一词向量,得到第一词向量集104。在本应用场景中,上述目标文本102可以是:“李明昨天晚上在步行街遇到了张三”。上述词集103可以是:“李明”,“昨天”,“晚上”,“在”,“步行街”,“遇到”,“了”,“张三”。上述第一词向量集104中(12,2,4,22,45)与词集103中“李明”相对应。上述第一词向量集104中(13,23,5,36,2)与词集103中“昨天”相对应。上述第一词向量集104中(23,38,23,3,5)与词集103中“晚上”相对应。上述第一词向量集104中(67,23,9,36,4)与词集103中“在”相对应。上述第一词向量集104中(45,12,5,68,3)与词集103中“步行街”相对应。上述第一词向量集104中(2,43,19,88,2)与词集103中“遇到”相对应。上述第一词向量集104中(98,23,45,8,9)与词集103中“了”相对应。上述第一词向量集104中(12,53,3,88,7)与词集103中“张三”相对应。

然后,提取上述第一词向量集104中每个第一词向量的上述目标文本103的上下文关联信息,以生成第二词向量,得到第二词向量集105。在本应用场景中,上述第一词向量集104中(12,2,4,22,45)与第二词向量集105中(89,2,4,32,41)相对应。上述第一词向量集104中(13,23,5,36,2)与第二词向量集105中(13,23,5,36,2)相对应。上述第一词向量集104中(23,38,23,3,5)与第二词向量集105中(24,8,213,3,5)相对应。上述第一词向量集104中(67,23,9,36,4)与第二词向量集105中(67,23,9,36,4)相对应。上述第一词向量集104中(45,12,5,68,3)与第二词向量集105中(23,9,200,8,9)相对应。上述第一词向量集104中(2,43,19,88,2)与第二词向量集105中(2,43,19,88,2)相对应。上述第一词向量集104中(98,23,45,8,9)与第二词向量集105中(92,33,65,8,9)相对应。上述第一词向量集104中(12,53,3,88,7)与第二词向量集105中(42,53,3,88,7)相对应。

最后,对上述第二词向量集105中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集106。在本应用场景中,上述标注语义角色的词集106包括:“遇到”,“遇到”->“李明”,“遇到”->“晚上”,“遇到”->“在”,“遇到”->“了”,“遇到”->“张三”,“晚上”->“昨天”,“在”->“步行街”。其中,“遇到”为文本102的核心。“遇到”->“李明”表征着两者为主谓关系。遇到”->“晚上”表征两者为状中关系。“遇到”->“在”表征两者为状中关系。“遇到”->“了”表征两者为右附加关系。“遇到”->“张三”表征两者为动宾关系。“晚上”->“昨天”表征两者为定中关系。“在”->“步行街”表征两者为介宾关系。

需要说明的是,上述电子设备101可以是硬件,也可以是软件。当电子设备101为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当电子设备101体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解,图1中的电子设备101的数目仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备。

继续参考图2,示出了根据本公开的语义角色标注方法的一些实施例的流程200。该语义角色标注方法,包括以下步骤:

步骤201,提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集。

在一些实施例中,语义角色标注方法的执行主体(例如图1所示的电子设备101)可以提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集。其中,上述词集是对上述目标文本进行分词得到的。作为示例,上述执行主体可以通过将上述词集输入至预先训练的长短期记忆网络(LSTM,Long Short-TermMemory),以生成第一词向量,得到第一词向量集。

在一些实施例的一些可选的实现方式中,上述提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集可以包括以下步骤:

第一步,对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集。其中,上述遮挡操作可以是将确定的由多个字组成的短语或实体作为一个统一单元被遮挡。作为示例,可以根据短语对来目标文本对应词集进行遮挡操作。作为另一个示例,可以根据实体来对目标文本对应词集进行遮挡操作。

如图3所示,目标文本301可以是:“李明昨天晚上在步行街遇到了张三”。词集302可以是:“李明”,“昨天”,“晚上”,“在”,“步行街”,“遇到”,“了”,“张三”。对词集302中的“在”和“了”进行遮挡,得到遮挡操作后的词集303。

第二步,对上述遮挡操作后的词集中的每个词进行词嵌入(Word Embedding),以生成第三词向量,得到第三词向量集。其中,上述词嵌入是一种将文本中的词转换成数字向量的方法。词嵌入过程可以是将一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。

作为示例,上述执行主体可以对上述遮挡操作后的词集中的每个词进行独热编码(One-hot编码),以生成第三词向量,得到第三词向量集。

作为又一个示例,上述执行主体可以根据Word2vec(word to vector)算法对上述遮挡操作后的词集中的每个词进行词嵌入(Word Embedding),以生成第三词向量,得到第三词向量集。

第三步,对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。

在一些实施例的一些可选的实现方式中,将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集。其中,上述编码网络可以是自然语言神经网络(Transformer)的编码网络。上述编码网络包括预定数目层编码层。作为示例,上述预定数目层可以是12层。

作为示例,可以将上述第三词向量集中的各个第三词向量输入至循环神经网络(Recurrent Neural Network,RNN),以此来对上述各个第三词向量进行编码,得到上述第一词向量集。

作为示例,如图4所示,首先,将上述第三向量集401输入至编码网络402的第一编码层4021,得到第一编码层4021的输出向量。然后,将上述第一编码层4021输入至编码网络402的第二编码层4022,得到第二编码层4022的输出向量。进而,将上述第二编码层4022输入至编码网络402的第三编码层4023,得到第三编码层4023的输出向量。最后,将上述第三编码层4023输入至编码网络402的第四编码层4024,得到第一词向量集403。

在一些实施例的一些可选的实现方式中,上述编码层是通过以下步骤生成:

第一步,将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集。其中,上述自注意力层为Self-Attention(自注意力)层。

第二步,将上述第五词向量集输入至丢弃层,得到第六词向量集。其中,上述丢弃层可以是随机失活(Dropout)层。

第三步,将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集。

第四步,将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集。

第五步,将上述第八向量集输入至线性变换层,得到第九向量集。作为示例,可以将上述第八向量集输入至前馈神经网络(Feedforward Neural Network),得到第九向量集。

第六步,将上述第九词向量集输入至上述丢弃层,得到第十词向量集。

第七步,将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第十一向量,得到第十一向量集。

第八步,将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。

步骤202,提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集。

在一些实施例中,上述执行主体可以提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集。作为示例,可以将上述第一词向量集中各个第一词向量输入至预先训练的长短期记忆网络(LSTM,LongShort-Term Memory),得到第二词向量集。作为又一个示例,可以将上述第一词向量集中各个第一词向量输入至预先训练的门控循环单元网络(Gated Recurrent Unit,GRU),得到上述第二词向量集。

步骤203,对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

在一些实施例中,上述执行主体可以对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。其中,上述语义角色标注可以是一种浅层语义分析技术,以句子为单位,分析句子的谓词-论元结构。具体来说,语义角色标注的任务就是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述句子中各个词之间的关系。

作为示例,上述执行主体可以将上述第二词向量集中的各个第二词向输入至预先训练的双向循环神经网络(Recurrent Neural Network,RNN),得到标注语义角色的词集。

作为又一个示例,上述执行主体可以将上述第二词向量集中的各个第二词向输入至预先训练的长短期记忆网络(LSTM,Long Short-Term Memory),得到标注语义角色的词集。

作为又一个示例,将上述第二词向量集中各个词向量输入至预先训练的隐马尔可夫模型(Hidden Markov model,HMM),得到上述标注语义角色的词集。

在一些实施例的一些可选的实现方式中,将上述第二词向量集中各个词向量输入至预先训练的条件随机场(Conditional Random Field,CRF),得到上述标注语义角色的词集。

本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的语义角色标注方法得到的标注语义角色的词集,语义角色标注的精确度有所提高。具体来说,发明人发现,造成语义角色标注不够精确的原因在于:在利用深度学习获取文本的特征时,不能很好的保留文本上下文信息。进而,影响了语义标注的结果。提取的文本上下文信息中存在部分冗余信息。进而,影响了语义标注的结果。基于此,本公开的一些实施例的语义角色标注方法对目标文本对应的词集中的每个词加强提取在目标文本的上下文信息以此减少文本上下文信息的丢失。除此之外,对于提取的文本上下文信息中存在部分冗余信息。可以通过进一步提取每个词对应向量在目标文本的上下文信息来减少冗余信息。进而,可以提高语义角色标注的精确度。

继续参考图5,示出了根据本公开的语义角色标注方法的另一些实施例的流程500。该语义角色标注方法,包括以下步骤:

步骤501,提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集。

步骤502,将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。

在一些实施例中,执行主体(例如图1所示的电子设备101)可以将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元(BiGRU,Bidirectional GatedRecurrent Unit)网络,得到上述第二词向量集。其中,BiGRU的基本单元由一个前向传播的GRU单元和一个后向传播的GRU单元组成,当前单元的输出由这两个单向的GRU共同决定,BiGRU可以利用过去和未来的信息来得到输入和输出信息之间的映射关系。

步骤503,对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

在一些实施例中,步骤501和503的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤201和203,在此不再赘述。

本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“不能有效的去除文本上下文信息中包含的很多冗余的信息,这些冗余的信息的存在会对文本处理的下游任务造成干扰”。不能有效的去除冗余的信息的因素往往如下:现有技术常常采用单向的GRU来提取文本上下文信息,虽然,单向的GRU所需参数也更少,在降低计算复杂度,提高模型训练速度的同时也降低了过拟合的可能性。但是,单向的GRU只能学习当前时刻之前的信息,无法对当前时刻之后的信息进行学习,对于一个词语义的理解是需要将一个词放在上下文的语境中进行学习的。为了解决问题,本公开使用BiGRU来进一步提取文本上下文信息,上述BiGRU利用过去和未来的信息来得到输入和输出信息之间的映射关系。进而,可以有效地减少文本上下文信息中包含的冗余的信息。

继续参考图6,作为对上述各图上述方法的实现,本公开提供了一种语义角色标注装置的一些实施例,这些装置实施例与图2上述的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图6所示,一些实施例的语义角色标注装置600包括:第一提取单元601、第二提取单元602和语义角色标注单元603。其中,第一提取单元601,被配置成提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集。第二提取单元602,被配置成提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集。语义角色标注单元603,被配置成对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

在一些实施例的一些可选的实现方式中,第一提取单元601可以进一步被配置成:对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对上述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。

在一些实施例的一些可选的实现方式中,第一提取单元601可以进一步被配置成:将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集,其中,上述编码网络包括预定数目层编码层。

在一些实施例的一些可选的实现方式中,第二提取单元602可以进一步被配置成:将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。

在一些实施例的一些可选的实现方式中,语义角色标注单元603可以进一步被配置成:将上述第二词向量集中各个词向量输入至预先训练的条件随机场,得到上述标注语义角色的词集。

在一些实施例的一些可选的实现方式中,上述编码层是通过以下步骤生成:将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集;将上述第五词向量集输入至丢弃层,得到第六词向量集;将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集;将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集;将上述第八向量集输入至线性变换层,得到第九向量集;将上述第九词向量集输入至上述丢弃层,得到第十词向量集;将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第十一向量,得到第十一向量集;将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。

可以理解的是,该装置600中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置600及其中包含的单元,在此不再赘述。

下面参考图7,其示出了适于用来实现本公开的一些实施例的电子设备700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。

特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一提取单元、第二提取单元和语义角色标注单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一提取单元还可以被描述为“提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:实体关系类型确定方法、装置和设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!