短语提取方法及装置、电子设备

文档序号:830128 发布日期:2021-03-30 浏览:3次 >En<

阅读说明:本技术 短语提取方法及装置、电子设备 (Phrase extraction method and device and electronic equipment ) 是由 李雪婷 简仁贤 吴文杰 刘影 于 2020-12-24 设计创作,主要内容包括:本申请提供一种短语提取方法及装置、电子设备,该方法包括:获取待处理句子;对待处理句子依次进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签;根据不同词语之间的依存关系标签以及每个词语的词性标签,判断带有核心关系标签的核心关系词是否为动词;若核心关系词为动词,查找与核心关系词构成指定依存关系的目标词;根据目标词的标签信息,确定是否进行核心关系词与目标词的合并输出。该方案可以由计算机基于分词的词性和依存关系,根据一定的规则,自动提取出短语,从而提高短语提取效率和准确率。(The application provides a phrase extraction method and device and electronic equipment, wherein the method comprises the following steps: obtaining a sentence to be processed; the method comprises the steps that word segmentation, part-of-speech tagging and dependency syntax processing are sequentially carried out on a sentence to be processed, and dependency relationship labels among different words and part-of-speech labels of each word are generated; judging whether the core relation word with the core relation label is a verb or not according to the dependency relation labels among different words and the part-of-speech label of each word; if the core relation word is a verb, searching a target word which forms an appointed dependency relationship with the core relation word; and determining whether to perform merging output of the core relation words and the target words or not according to the label information of the target words. The scheme can automatically extract phrases by a computer according to a certain rule based on the part of speech and the dependency relationship of the participles, thereby improving the phrase extraction efficiency and the accuracy.)

短语提取方法及装置、电子设备

技术领域

本申请涉及自然语言处理技术领域,特别涉及一种短语提取方法及装置、电子设备。

背景技术

基本短语的识别和分析是自然语言浅层句法分析的重要任务之一。基本短语的分析结果可以简化句子的结构,降低句法分析的复杂度。而且作为一种确定性很高的部分分析结果,基本短语分析将解决绝大部分的局部歧义结构问题,从而为进行更深入的语块分析和完全句法分析打下基础。举例来说,在现有的自然语言处理技术领域,汉语短语提取对于粗粒度分词、关键词提取、信息提取等均具有很大的帮助。

故现有的汉语短语提取方法,主要从训练语料库出发,这种方式耗费人力,也面临着准确率到达临界点难以提升的问题。

发明内容

本申请实施例提供了一种短语提取方法,用以降低人力成本,提高提取效率。

本申请实施例提供了一种短语提取方法,所述方法包括:

获取待处理句子;

对所述待处理句子依次进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签;

根据不同词语之间的依存关系标签以及每个词语的词性标签,判断带有核心关系标签的核心关系词是否为动词;

若所述核心关系词为动词,查找与所述核心关系词构成指定依存关系的目标词;

根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出。

在一实施例中,所述查找与所述核心关系词构成指定依存关系的目标词,包括:

根据不同词语之间的依存关系标签,查找与所述核心关系词具有状中结构关系的目标词;

所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为副词,且与所述核心关系词相邻,将所述核心关系词和所述目标词合并输出。

在一实施例中,若所述目标词的词性为副词,且与所述核心关系词相邻,将所述核心关系词和所述目标词合并输出,包括:

若所述目标词的词性为副词,且与所述核心关系词相邻,判断所述目标词是否存在子节点;

若所述目标词存在子节点,将所述核心关系词、所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为副词,且与所述核心关系词不相邻,判断所述目标词是否存在子节点;

若所述目标词存在子节点,将所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为介词,判断与所述目标词构成介宾关系的宾语的词性,若为动词,将所述宾语作为核心词,根据与所述核心词构成指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

在一实施例中,所述查找与所述核心关系词构成指定依存关系的目标词,包括:

根据不同词语之间的依存关系标签,查找与所述核心关系词具有动补结构关系的目标词;

所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为形容词,将所述核心关系词和所述目标词合并输出。

在一实施例中,若所述目标词的词性为形容词,将所述核心关系词和所述目标词合并输出,包括:

若所述目标词的词性为形容词,判断所述目标词是否存在子节点;

若所述目标词存在子节点,将所述核心关系词、所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为动词,将所述目标词作为核心词,根据与所述核心词构成所述指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

在一实施例中,所述查找与所述核心关系词构成指定依存关系的目标词,包括:

查找与所述核心关系词具有主谓关系、动宾关系或前置宾语关系的目标词;

所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为动词,将所述目标词作为核心词,根据与所述核心词构成所述指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

在一实施例中,所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为介词,判断与所述目标词构成介宾关系的宾语的词性,若为动词,将所述宾语作为核心词,根据与所述核心词构成所述指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

在一实施例中,所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

若所述目标词的词性为名词、代词、数量词,判断所述目标词是否存在子节点;

若所述目标词存在子节点,将所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,所述查找与所述核心关系词构成指定依存关系的目标词,包括:

查找与所述核心关系词具有间宾关系或兼语关系的目标词;

所述根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出,包括:

根据所述目标词的标签信息,判断所述目标词是否存在子节点;

若所述目标词存在子节点,将所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,该方法还包括:在输出短语的同时,输出所述短语相应的词性。

本申请实施例还提供了一种短语提取装置,所述装置包括:

句子获取模块,用于获取待处理句子;

标签生成模块,用于对所述待处理句子依次进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签;

词性判断模块,用于根据不同词语之间的依存关系标签以及每个词语的词性标签,判断带有核心关系标签的核心关系词是否为动词;

目标词查找模块,用于在所述核心关系词为动词时,查找与所述核心关系词构成指定依存关系的目标词;

合并判断模块,用于根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出。

本申请实施例提供了一种电子设备,所述电子设备包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行上述短语提取方法。

本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述短语提取方法。

本申请上述实施例提供的技术方案,通过对待处理句子进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签,之后通过判断带有核心关系标签的核心关系词是否为动词;在核心关系词为动词时,查找与核心关系词构成指定依存关系的目标词;根据目标词的标签信息,确定是否进行核心关系词与目标词的合并输出,由此无需人工凭语感进行短语提取,由计算机基于分词的词性和依存关系,根据一定的规则,自动提取出短语,从而提高短语提取效率和准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的电子设备的结构示意图;

图2为本申请一实施例提供的短语提取方法的流程示意图;

图3为本申请一实施例提供的短语提取方法的详细流程示意图;

图4为本申请一实施例提供短语提取装置的框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的短语提取方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的短语提取方法。

所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的短语提取方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

在一实施例中,图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。

在一实施例中,用于实现本申请实施例的短语提取方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。

在一实施例中,用于实现本申请实施例的短语提取方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、台式电脑等智能终端。

图2是本申请实施例提供的短语提取方法的流程示意图。该方法可以由计算机等电子设备执行。如图2所示,该方法包括以下步骤S210-步骤S250。

步骤S210:获取待处理句子。

其中,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组。它是大于词而又不成句的语法单位。本申请实施例提供的方案,可以从待处理句子中提取出短语。

举例来说,待处理句子可以是“后勤部副部长王某某25日召见某国驻华大使李某某,就某组织通过所谓“某地区经济与贸易法案”提出严正交涉和强烈抗议,敦促某方立即纠正错误”。其中的短语可能有“后勤部副部长王某某”、“某国驻华大使李某某”等。

步骤S220:对所述待处理句子依次进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签。

在一实施例中,可以使用ICTCLAS分词器先对待处理句子进行分词操作,得到一个个词语。之后使用ICTCLAS分词器对分词操作后的词语进行词性标注,即为每个词语打上相应的词性标签,名词标记为n、时间词标记为nt、数词标记为m、量词标记为q、代词标记为r、动词标记为v、形容词标记为a、副词标记为d、介词标记为p、人名标记为nr、地名标记为ns、团体机关单位名称标记为ni,标点符号标记为w等等。

例如,上文列举的待处理句子,经过分词和词性标注后可以得到“后勤部_ni副部长_n王某某_nh25日_nt召见_v A国_ns驻_n华_ns大使_n李某某_nh,_w就_p某组织_ni通过_v所谓_a“_w某地区_ns经济_n与_c贸易_n法案_n”_w提出_v严正_a交涉_n和_cc强烈_a抗议_n,_w敦促_v某方_n立即_d纠正_v错误_n。_w”。

在得到每个词语的词性标签后,可以通过已有的依存句法处理工具(例如LTP)分析不同词语之间的依存关系,为基于依存关系的不同,打上相应的标签。如下表1所示,词语之间的依存关系可以有主谓关系、动宾关系、间宾关系等等。

表1依存关系的标签释义

关系类型 标签
主谓关系 SBV
动宾关系 VOB
间宾关系 IOB
前置宾语 FOB
兼语 DBL
定中关系 ATT
状中结构 ADV
动补结构 CMP
并列关系 COO
介宾关系 POB
左附加关系 LAD
右附加关系 RAD
标点 WP
核心关系 HED

对于上文列举的待处理句子而言,可以得到如下表2所示的词性标签和依存关系标签。

表2待处理句子中每个词语的词性以及彼此间的依存关系标签

序号 词语 词性 父节点 依存关系
1 后勤部 ni 2 ATT
2 副部长 n 3 ATT
3 王某某 nh 5 SBV
4 25日 nt 5 ADV
5 召见 v 0 HED
6 某国 ns 9 ATT
7 n 9 ATT
8 ns 7 VOB
9 大使 n 10 ATT
10 李某某 nh 5 VOB
11 wp 5 WP
12 p 23 ADV
13 某组织 ni 14 SBV
14 通过 v 12 POB
15 所谓 a 21 ATT
16 wp 21 WP
17 某地区 ns 21 ATT
18 经济 n 21 ATT
19 c 20 LAD
20 贸易 n 18 COO
21 法案 n 14 VOB
22 wp 21 WP
23 提出 v 5 COO
24 严正 a 25 ATT
25 交涉 n 23 VOB
26 c 28 LAD
27 强烈 a 28 ATT
28 抗议 n 25 COO
29 wp 23 WP
30 敦促 v 23 COO
31 某方 n 30 DBL
32 立即 d 34 ADV
33 纠正 v 30 VOB
34 错误 n 33 VOB
35 wp 30 WP

如上表2所示,“后勤部”为机构相关名词,“副部长”为名词,“后勤部”与“副部长”之间是定中关系。核心关系是“召见”。

步骤S230:根据不同词语之间的依存关系标签以及每个词语的词性标签,判断带有核心关系标签的核心关系词是否为动词。

以上表2为例,带有核心关系标签的核心关系词(又可称为HED节点)是“召见”,核心关系词可以认为是待处理句子的核心。根据“召见”的词性标签,可以判断出“召见”是否为动词。如果HED节点不是动词,可以将待处理句子放入无效句子集。本申请实施例主要针对动词作为句子核心的句子。

步骤S240:若所述核心关系词为动词,查找与所述核心关系词构成指定依存关系的目标词。

在一实施例中,与核心关系词构成指定依存关系的目标词可以是与核心关系词具有SBV/VOB/IOB/FOB/DBL/ADV/CMP/COO/POB关系的词汇,这些词汇可以认为是HED节点的一级主要子节点,依次可以称为SBV节点、VOB节点、IOB节点、FOB节点、DBL节点、ADV节点、CMP节点、COO节点、POB节点。为进行区分,查找到的与核心关系词具有上述任意一种关系的词汇称为目标词。

以上表2为例,序号5的“召见”与序号3的“王某某”具有SBV关系,序号5的“召见”与序号4的“25日”具有ADV关系,序号5的“召见”与序号10的“李某某”具有VOB关系,序号5的“召见”与序号23的“提出”具有COO关系。目标词可以有“王某某”(即SBV节点)、“25日”(即ADV节点)、“李某某”(即VOB节点)、“提出”(即COO节点)。

步骤S250:根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出。

目标词的标签信息可以包括目标词的词性标签以及与其他词之间的依存关系标签。合并输出是指组合在一起作为一个短语进行输出。

在一实施例中,计算机可以根据不同词语之间的依存关系标签,查找与核心关系词具有状中结构关系(ADV)的目标词;根据目标词的标签信息,若目标词的词性为副词,且与核心关系词相邻,将核心关系词和目标词合并输出。在一实施例中,还可以进一步目标词是否存在子节点;若所述目标词存在子节点,将所述核心关系词、所述目标词和所述子节点相应的词汇合并输出。

第一个词汇用来修饰第二个词汇,则第一个词汇可以认为是第二个词汇的子节点。以上文列举的待处理句子为例,从表2中可以看出,“召见”是核心关系节点,其子节点有“王某某”、“25日”“李某某”、“提出”。而“王某某”的子节点是“副部长”、“副部长”的子节点是“后勤部”。故“后勤部”也可认为是“王某某”的子节点。

在一实施例中,计算机可以查找与核心关系词具有ADV关系的目标词,如果目标词的词性是副词,且紧挨核心关系词,则合并输出。如果目标词有子节点,可以将核心关系词、目标词以及目标词的所有子节点合并输出。相反的,如果目标词没有子节点,可以仅合并核心关系词和目标词。相反的,如果目标词的词性是副词,但是没有紧挨核心关系词,则不合并输出。

在一实施例中,计算机可以查找与核心关系词具有ADV关系的目标词,若所述目标词的词性为介词,判断与所述目标词构成介宾关系的宾语的词性,若为动词,将所述宾语作为核心词,根据与所述核心词构成指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

当前实施例中,核心词可以认为是目标词的宾语,且该宾语为动词。此时该宾语可以作为句子核心,与上文核心关系词类似,采用相同的方法查找与所述核心词构成指定依存关系的词汇,可以包括与核心词具有SBV/VOB/IOB/FOB/DBL/ADV/CMP/COO/POB关系的词汇,这次词汇可以认为是核心词的子节点,包括SBV节点词汇、VOB节点词汇、IOB节点词汇、FOB节点词汇、DBL节点词汇、ADV节点词汇、CMP节点词汇、COO节点词汇、POB节点词汇。

除了上文的状中结构关系外,根据不同词语之间的依存关系标签,计算机还可以查找与核心关系词具有动补结构关系的目标词;根据目标词的标签信息(包括词性标签),若目标词的词性为形容词,将所述核心关系词和所述目标词合并输出。若所述目标词的词性为形容词,进一步的还可以判断目标词是否存在子节点;若所述目标词存在子节点,将所述核心关系词、所述目标词和所述子节点相应的词汇合并输出。相反的,如果不存在子节点,可以仅将核心关系词和目标词合并输出。

在其他实施例中,计算机查找与核心关系词具有动补结构关系的目标词,如果若目标词的词性为动词,可以将目标词作为核心词,根据与所述核心词构成指定依存关系的词汇的词性,确定是否进行核心词与所述词汇的合并输出。

在一实施例中,除了上文的状中结构关系、动补结构关系外,计算机还可以查找与核心关系词具有主谓关系、动宾关系或前置宾语关系的目标词。若所述目标词的词性为动词,将所述目标词作为核心词,根据与所述核心词构成所述指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

若所述目标词的词性为介词,判断与所述目标词构成介宾关系的宾语的词性,若为动词,将所述宾语作为核心词,根据与所述核心词构成所述指定依存关系的词汇的词性,确定是否进行所述核心词与所述词汇的合并输出。

若所述目标词的词性为名词、代词、数量词,核心关系词不与目标词合并。继续判断所述目标词是否存在子节点;若所述目标词存在子节点,将所述目标词和所述子节点相应的词汇合并输出。

在一实施例中,计算机还可以查找与所述核心关系词具有间宾关系或兼语关系的目标词;根据所述目标词的标签信息,判断所述目标词是否存在子节点;若所述目标词存在子节点,将所述目标词和所述子节点相应的词汇合并输出。

图3是本申请实施例提供的短语提取方法的详细流程示意图。如图3所示,该方法包括以下步骤:

步骤S301:输入待处理的句子。

步骤S302:进行分词、词性标注、依存句法处理。

步骤S303:判断HED节点(句子核心)词汇是否为动词词类,是,则进入下面步骤,否,放入无效句子集。

步骤S304:找HED节点的一级主要子节点--SBV节点,如果有,判断SBV节点的词汇(下文为便于描述直接用节点代表节点的词汇)的词性;如没有,进入下一个步骤305;

若SBV节点为名词、代词、数量词类,SBV节点不与HED节点合并。SBV节点如有子节点,则合并SBV节点与SBV节点下的所有子节点词汇,保持SBV节点的词性,输出结果;SBV节点如没有子节点,则保持SBV节点的词性,输出结果;

若SBV节点为介词类,SBV节点不与HED节点合并。输出该介词及其词性。判断介词的子节点POB节点的词性。如是动词类,POB节点作为句子核心,所在句子重新执行步骤S303-步骤S314。如是其他词类,合并POB节点与所有POB节点的子节点,保持POB节点的词性,输出结果,若POB节点没有子节点的情况,输出POB节点及其词性;

若SBV节点为动词类,SBV不与HED合并;SBV节点作为句子核心,所在句子重新执行步骤S303-步骤S314;

若SBV节点为其他词类,SBV不与HED合并。如有子节点,合并SBV节点与该节点下的所有子节点,保持SBV节点词性,输出结果;如没有子节点,保持SBV节点的词性,输出结果。

步骤S305:找VOB节点,如果有,判断VOB节点的词性;如没有,进入下一个步骤S306;

若VOB节点为名词、代词、数量词类,VOB节点不与HED合并。VOB节点如有子节点,则合并VOB节点与VOB节点下的所有子节点,保持VOB节点的词性,输出结果;VOB如没有子节点,则保持VOB节点的词性,输出结果;

若VOB节点为介词类,VOB节点不与HED节点合并。输出该介词及其词性。判断介词的子节点POB节点的词性。如是动词类,POB节点作为句子核心,所在句子重新执行步骤S303-步骤S314。如是其他词类,合并POB节点与所有POB的子节点,保持POB的词性,输出结果,POB没有子节点的情况,输出POB节点及其词性;

若VOB节点为动词类,VOB节点不与HED节点合并。VOB节点作为句子核心,所在句子重新执行步骤S303步骤S314;

其他词类,VOB节点不与HED节点合并。如有子节点,合并VOB节点与该节点下的所有子节点,保持VOB节点词性,输出结果;如没有子节点,保持VOB节点的词性,输出结果。

步骤S306:找IOB节点,如果有,IOB节点不与HED节点合并;如没有,进入下一个步骤S307;

如IOB节点有子节点,合并IOB节点与所有IOB的子节点,保持IOB的词性,输出结果;

如没有子节点,则保持IOB节点的词性,输出结果。

步骤S307:找FOB节点,如果有,判断FOB节点的词性;如没有,进入下一个步骤S308;

若FOB节点为名词、代词、数量词类,FOB节点不与HED节点合并。FOB节点如有子节点,则合并FOB节点与FOB节点下的所有子节点,保持FOB节点的词性,输出结果;FOB如没有子节点,则保持FOB节点的词性,输出结果。

若FOB节点为介词类,FOB节点不与HED节点合并。输出该介词及其词性。判断介词的子节点POB节点的词性。如是动词类,POB节点作为句子核心,所在句子重新执行步骤S303-步骤S314。如是其他词类,合并POB节点与所有POB的子节点,保持POB的词性,输出结果,POB没有子节点的情况,输出POB节点及其词性;

若FOB节点为动词类,FOB节点不与HED节点合并。FOB节点作为句子核心,所在句子重新执行步骤S303-步骤S314;

若FOB节点为其他词类,FOB节点不与HED节点合并。如有子节点,合并FOB节点与该节点下的所有子节点,保持FOB节点词性,输出结果;如没有子节点,保持FOB节点的词性,输出结果。

步骤S308:找DBL节点,如果有,DBL节点不与HED节点合并;如没有,进入下一个步骤S309;

如DBL节点有子节点,合并DBL节点与所有DBL的子节点,保持DBL的词性,输出结果;

如DBL节点没有子节点,则保持DBL节点的词性,输出结果。

步骤S309:找ADV节点,如果有,判断ADV节点的词性;如没有,进入下一个步骤S310;

若ADV节点是副词类,判断是否紧挨着HED节点。如果紧挨着HED节点,判断ADV节点是否有子节点,如有,合并ADV节点与ADV节点的子节点后再与HED节点合并,保持HED节点的动词词性,输出结果,如没有,ADV节点与HED节点合并,保持动词词性,输出;如果ADV节点没有紧挨着HED节点,ADV节点不与HED节点合并,判断ADV节点是否有子节点,如有,合并ADV节点与ADV节点的子节点后,保持ADV节点词性,输出结果,如ADV节点没有子节点,保持ADV节点词性,输出结果;

若ADV节点是介词类,ADV节点不与HED节点合并。输出该介词及其词性。判断介词的子节点POB节点的词性。如是动词类,POB节点作为句子核心,所在句子重新执行步骤S303-步骤S314。如POB节点是其他词类,合并POB节点与所有POB的子节点,保持POB的词性,输出结果,POB没有子节点的情况,输出POB节点及其词性;

若ADV节点是其他词类,ADV节点不与HED节点合并。如ADV节点有子节点,合并ADV节点与该节点下的所有子节点,保持ADV节点词性,输出结果;如ADV节点没有子节点,则保持ADV节点的词性,输出结果。

步骤S310:找CMP节点,如果有,判断CMP节点的词性;如没有,进入下一个步骤S311;

若CMP节点为动词类,CMP节点不与HED节点合并,CMP节点作为句子核心,所在句子重新执行步骤S303-步骤S314;

若CMP节点为形容词类,判断CMP节点是否有节点,如有子节点,合并CMP节点与CMP节点下的所有子节点后,与HED节点合并,保持HED节点的词性,输出结果;如CMP节点没有子节点,CMP节点与HED节点合并,保持HED节点的词性,输出结果;

若CMP节点为其他词类,CMP节点不与HED合并,若CMP节点有子节点,合并CMP节点与该节点下的所有子节点,保持CMP节点词性,输出结果,如CMP节点没有子节点,保持CMP节点的词性,输出结果。

步骤S311:找POB节点,如果有,判断POB节点的词性;如没有,进入下一个步骤S312;

若POB节点是动词类,POB节点不与HED节点合并,POB节点作为句子核心,所在句子重新执行步骤S303-步骤S314;

若POB节点是其他词类,POB节点不与HED节点合并,如POB节点有子节点,合并POB节点与所有POB的子节点,保持POB的词性,输出结果;如POB节点没有子节点,保持POB的词性,输出结果。

步骤S312找COO节点,如果有,判断COO节点的词性;如没有,进入下一个步骤S313;

若COO节点动词类,COO节点不与HED节点合并,COO节点作为句子核心,所在句子重新执行步骤S303-步骤S314。

若COO节点为其他词类,将待处理句子放入无效句子集。

步骤S313:找HED节点的次要子节点LAD(左附加关系节点)/RAD(右附加关系节点),判断该节点是否已经在前几步骤中被合并作为短语的一部分,如已合并,则不需要进行更多步骤,如未被合并,则直接输出该节点以及词性。

步骤S314:如果HED节点未与其他成分合并输出,那么输出HED节点与其词性。

仍以上文列举的待处理句子为例,可以得到表2所示的标签信息。短语提取过程如下:

1、“召见”句子核心的流程;

1.1、找“召见”的一级主要子节点,包括:SBV/VOB/IOB/FOB/DBL/ADV/CMP/COO/POB等节点;

SBV:王某某;

VOB:李某某;

ADV:日;

COO:提出;

1.2、判断SBV节点的词性;

王某某_nh,是名词类,所以不与HED节点合并;

“王某某”有子节点,所以合并该节点下的所有子节点,所以,合并子节点“副部长”、“副部长”的子节点“后勤部”;

输出:后勤部副部长王某某_nh;

1.3、判断VOB节点的词性;

李某某_nh,是名词类,所以不与HED节点合并;

“李某某”有子节点,所以合并该节点下的所有子节点,所以,合并子节点“大使”、大使的子节点“某国”“驻”、“驻”的子节点“华”;

输出:驻华大使李某某_nh;

1.4、判断ADV节点的词性;

25日_nt,是其他词类,所以不与HED节点合并;

“25日”没有子节点,所以输出:25日_nt;

1.5、判断COO节点的词性;

提出_v,是动词词类,进入“提出”句子核心的流程;

1.6、找“召见”的次要子节点;

无;

2、“提出”句子核心的流程;

2.1、找出“提出”的一级子节点;

VOB:交涉_n;

ADV:就_p;

COO:敦促_v;

2.2、判断VOB节点的词性;

交涉_n,是名词类,所以不与HED合并;

“交涉”有子节点,所以合并该节点下的所有子节点,所以,合并子节点“严正”子节点“抗议”、“抗议”的子节点“和”“强烈”;

输出:严正交涉和强烈抗议_n;

2.3、判断ADV节点的词性;

就_p,是介词类,所以不与HED节点合并;

输出:就_p;

判断POB节点的词性,通过_v标签,确定POB节点是动词类,进入“通过”句子核心的流程;

2.4、判断COO节点的词性;

敦促_v,是动词类,进入“敦促”句子核心的流程;

2.5、找“提出”的次要子节点;

无;

3、“通过”句子核心的流程;

3.1、找出“通过”的一级子节点;

判断“通过”的一级主要节点;

VOB:法案_n;

3.2、判断VOB节点的词性;

法案_n,是名词类,所以不与HED合并;

“法案”有子节点,所以合并该节点下的所有子节点,所以,合并子节点“所谓”“某地区”“经济”、“经济”的子节点“贸易”、“贸易”的子节点“与”;

输出:所谓某地区经济与贸易法案_n;

3.3、找“通过”的次要子节点;

无;

4、“敦促”句子核心的流程;

4.1、找出“敦促”的一级子节点;

DBL:某方_n;

VOB:纠正_v;

4.2、判断DBL节点是否有子节点

DBL节点不与HED节点合并,DBL节点没有子节点。

输出:某方_n

4.3、判断VOB的词性

纠正_v,是动词类,进入“纠正”句子核心的流程。

4.4、找“纠正”的次要子节点

5、“纠正”句子核心的流程

5.1、找出“纠正”的一级子节点

VOB:错误_n

ADV:立即_d

5.2、判断VOB的词性

错误_n,是名词类,所以不与HED合并。

无子节点,所以输出:错误_n。

5.3、判断ADV的词性

立即_d,是副词类,与HED紧挨,无子节点

输出:立即纠正_v

5.4、找“纠正”的次要子节点

通过以上5个句子核心流程,整理最终输出结果为:

后勤部副部长王某某_nh;

25日_nt;

召见_v;

某国驻华大使李某某_nh;

就_p;

某组织_n;

通过_v;

所谓某地区经济与贸易法案_n;

提出_v;

严正交涉和强烈抗议_n;

敦促_v;

某方_n;

立即纠正_v;

错误_n。

即在输出上述短语的同时,可以同时输出短语相应的词性。

以另一待处理句子“至于相关改革与创新举措,既要适时监测具体成效,也要择机做好调整和推广工作。”为例,

分词和词性标注结果为:

至于_p相关_n改革_n与_c创新_n举措_n,_w既_d要_v适时_d监测_v具体_a成效_n,_w也_d要_v择机_v做_v好_a调整_n和_c推广_n工作_n。_w

依存句法结果为:

序号 词语 词性 父节点 依存关系
1 至于 p 11 ADV
2 相关 n 6 ATT
3 改革 n 6 ATT
4 c 5 LAD
5 创新 n 3 COO
6 举措 n 1 POB
7 wp 1 WP
8 d 9 ADV
9 v 11 ADV
10 适时 d 11 ADV
11 监测 v 0 HED
12 具体 a 13 ATT
13 成效 n 11 VOB
14 wp 11 WP
15 d 16 ADV
16 v 17 ADV
17 择机 v 11 COO
18 v 17 COO
19 a 18 CMP
20 调整 n 23 ATT
21 c 22 LAD
22 推广 n 20 COO
23 工作 n 18 VOB
24 wp 18 WP

短语提取过程如下:

1.“监测”句子核心的流程

1.1、找出“监测”的一级子节点;

VOB:成效_n;

ADV:适时_d;

ADV:要_v;

ADV:至于_p;

COO:择机_v;

1.2、判断VOB节点的词性;

成效_n,是名词类,所以不与HED节点合并。“成效”有子节点,所以合并该节点下的所有子节点,所以,合并“具体”和“成效”;

输出:具体成效_n;

1.3、判断ADV节点的词性;

适时_d,是副词类,与HED紧挨,无子节点,ADV节点与HED节点合并;

所以输出:适时监测_v;

要_v,是动词类,进入“要”句子核心的流程;

至于_p,是介词类,所以不与HED节点合并;

输出:就_p;

判断ADV节点的子节点POB节点的词性,举措_n,是其他词类,POB节点有子节点,所以合并“举措”与子节点“相关”“改革”、“改革”的子节点“创新”、“创新”的子节点“与”;

输出:相关改革与创新举措_n;

1.4、判断COO节点的词性;

择机_v,是动词类,进入“择机”句子核心的流程。

1.5、找“监测”的次要子节点;

无;

2、“要”句子核心的流程;

2.1、找出“要”的一级子节点;

ADV:既_d;

2.2、判断ADV节点的词性;

既_d,是副词类,与HED节点紧挨,无子节点,与HED节点合并保持HED节点词性,输出结果;

所以输出:既要_v;

3、“择机”句子核心的流程;

3.1、找出“择机”的一级子节点;

ADV:要_v;

COO:做_v;

3.2、判断ADV节点的词性;

要_v,是动词类,进入“要”句子核心的流程;

3.3、判断COO节点的词性;

做_v,是动词类,进入“做”句子核心的流程;

4、“要”句子核心的流程;

4.1、找出“要”的一级子节点;

ADV:也_d;

也_d,是副词类,与HED节点紧挨,“也”无子节点,与HED合并保持HED节点词性,输出结果;

所以输出:也要_v;

5、“做”句子核心的流程;

5.1、找出“做”的一级子节点;

VOB:工作_n;

CMP:好_a;

5.2、判断VOB节点的词性;

工作_n,是名词类,所以不与HED节点合并。“工作”有子节点,所以合并该节点下的所有子节点,所以,合并“调整”、“调整”的子节点“推广”、“推广”的子节点“和”;

输出:调整和推广工作_n;

5.3、判断CMP节点的词性;

好_a,是形容词类,“好”没有子节点,“好”与HED节点合并,保持HED节点词性,输出结果;

所以输出:做好_v;

通过以上5个句子核心流程,整理最终输出结果为:

至于_p;

相关改革与创新举措_n;

既要_v;

适时监测_v;

具体成效_n;

也要_v;

择机_v;

做好_v;

调整和推广工作_n;

本申请是一种针对核心为动词的句子进行短语提取的方法,利用了分词、词性、依存句法这三个NLP基础模块,对现代汉语的语法进行分析,提取固定用法,形成了合并规则。可以不借助训练语料,而且合并比较灵活,可以根据增减步骤改变短语的粒度。

下述为本申请装置实施例,可以用于执行本申请上述短语提取方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请短语提取方法实施例。

图4为本申请一实施例示出的一种短语提取装置的框图。如图4所示,该装置包括:句子获取模块410、标签生成模块420、词性判断模块430、目标词查找模块440以及合并判断模块450。

句子获取模块410,用于获取待处理句子;

标签生成模块420,用于对所述待处理句子依次进行分词、词性标注和依存句法处理,生成不同词语之间的依存关系标签以及每个词语的词性标签;

词性判断模块430,用于根据不同词语之间的依存关系标签以及每个词语的词性标签,判断带有核心关系标签的核心关系词是否为动词;

目标词查找模块440,用于在所述核心关系词为动词时,查找与所述核心关系词构成指定依存关系的目标词;

合并判断模块450,用于根据所述目标词的标签信息,确定是否进行所述核心关系词与所述目标词的合并输出。

上述装置中各个模块的功能和作用的实现过程具体详见上述短语提取方法中对应步骤的实现过程,在此不再赘述。

在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种诉求分析方法、装置、电子设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!