一种成语同义词列表的生成方法及装置

文档序号:1628458 发布日期:2020-01-14 浏览:21次 >En<

阅读说明:本技术 一种成语同义词列表的生成方法及装置 (Idiom synonym list generation method and device ) 是由 刘晓楠 李长亮 汪美玲 郭昱 于 2019-10-08 设计创作,主要内容包括:本申请提供一种成语同义词列表的生成方法及装置,其中所述方法包括:获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表;将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。(The application provides a method and a device for generating a idiom synonym list, wherein the method comprises the following steps: acquiring question sentences input by a user, and identifying target idioms from the question sentences input by the user; acquiring at least one candidate idiom with the same feature label as the target idiom from a preset idiom knowledge graph, and generating an idiom recommendation list corresponding to the at least one candidate idiom; performing similarity calculation on the word embedding vector corresponding to the target idiom and the word embedding vector corresponding to each candidate idiom in the idiom recommendation list respectively to obtain a similarity value corresponding to each candidate idiom and the target idiom; and screening the candidate idioms in the idiom recommendation list according to the similarity degree value corresponding to each candidate idiom and the target idiom to obtain an idiom recommendation list only containing the candidate idioms which are synonyms with the target idiom.)

一种成语同义词列表的生成方法及装置

技术领域

本说明书涉及计算机技术领域,特别涉及一种成语同义词列表的生成方法、装置、计算设备及计算机可读存储介质。

背景技术

现有的网络成语词典,主要提供了成语的读音、释义、出处、近义词以及反义词等信息,通常采用关系型数据库组织和存储,在此基础上可为用户提供的有关同义词的使用方式为:首先搜索特定成语,进而查看成语的相关信息,然后通过打开返回信息提供的近义词链接,用户对相关近义词成语和特定成语的解释进行对比,判断两者是否为同义词。同时,目前中文同义词技术应用主要在信息检索、对外汉语教学以及专业词汇等领域,有关成语领域的多为人工标注的包含部分同义词关系的近义词关系。

一般用户在写作时需要对特定成语的同义词进行查找的情况下,必须要切换到第三方的搜索或字典等工具,然而,目前此类工具主要支持针对输入的成语返回相关成语信息,只能提供有关该成语意思相近的近义词链接,并未提供与该成语的语义相同的同义词信息,需要用户打开这些成语信息中部分包含近义词的链接,对于原成语和近义词的释义进行对比,判断两者是否为同义词关系,这就要求用户对工具返回的成语进行较多的甄别和筛选,从而极大破坏了用户关于文档写作思路的连续性,提高了用户获取所需信息的难度,降低了用户获取所需信息的准确性。

发明内容

有鉴于此,本说明书实施例提供了一种成语同义词列表的生成方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种成语同义词列表的生成方法,包括:

获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;

在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表;

将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;

根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表;

根据本说明书实施例的第二方面,提供了一种成语同义词列表的生成装置,包括:

成语识别模块,被配置为获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;

列表生成模块,被配置为在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表;

相似度计算模块,被配置为将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;

列表筛选模块,被配置为根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表;

根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述成语同义词列表的生成方法的步骤。

根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述成语同义词列表的生成方法的步骤。

本申请针对用户在写作过程中对于同义词和近义词之间的细微差别难以分辨的痛点,通过利用成语知识图谱中的特征标签,保证成语语素的概括以及成语词嵌入向量之间的相似度的计算为用户提供精准的同义词,可以在任何情况下返回与目标成语互相替换的成语所组成的成语推荐列表,使得用户可以在写作工具中直接提问无需切换到第三方工具,对于生成的成语推荐列表,用户无需自己进行同义或近义的辨别,也无需判断成语之间相互替换的可行性,从而缩短了选用成语的路径并保证了成语选择的准确性。

附图说明

图1是本申请实施例提供的计算设备的结构框图;

图2是本申请实施例提供的成语同义词列表的生成方法的流程图;

图3是本申请实施例提供的成语同义词列表的生成方法的另一流程图;

图4是本申请实施例提供的成语同义词列表的生成方法的示意图;

图5是本申请实施例提供的成语同义词列表的生成方法的另一流程图;

图6是本申请实施例提供的成语同义词列表的生成方法的另一流程图;

图7是本申请实施例提供的成语同义词列表的生成装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先,对本发明一个或多个实施例涉及的名词术语进行解释。

知识图谱:知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。

实体:实体指的是具有可区别性且独立存在的某种事物,例如人名、城市名称、植物名称、商品名称等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

属性:从一个实体指向它的属性值,不同的属性类型对应于不同类型属性的边,属性主要指对象的特征信息,例如“面积”、“人口”、“首都”是几种不同的属性,属性值主要指属性的值,例如960万平方公里等。

关系:在知识图谱上,关系则是一个把若干个图节点(实体、语义类、属性值)映射到布尔值的函数。

三元组:三元组是知识图谱的一种通用表示方式,三元组的基本形式主要包括(头实体-关系-尾实体)和(实体-属性-属性值)等。

模式匹配算法:模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,假设P是给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这个问题成为模式匹配问题,P称为模式,T称为目标,如果T中存在一个或多个模式为P的子串,就给出该子串在T中的位置,称为匹配成功;否则匹配失败。模式匹配算法有很多很多,其中比较著名的算法有:KMP算法、BM算法、Sunday算法和Horspool算法。

语素:语素是最小的语音、语义结体,是最小的有意义的语言单位。语素不是独立运用的语言单位,它的主要功能是作为构成词语的材料。说它是语音、语义结合体,有意义的语言单位,目的是把它跟音节区分开来,有些音节光有音没有意义,不能看作语素,如“雳”、“馄”。说它是最小的有意义的语言单位,不属于独立运用的语言单位,目的是把它跟词区分开来。

在本申请中,提供了一种成语同义词列表的生成方法、装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的成语同义词列表的生成方法的示意性流程图,包括步骤201至步骤210。

步骤202:获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语。

在本申请的一个或多个实施例中,在用户通过终端设备进行文字输入时需要查找特定的目标成语的同义词的情况下,用户可以在写作工具中直接向系统进行提问,系统能够获取用户输入的问题语句,并从所述用户输入的问题语句中识别出用户欲进行同义词查找的所述目标成语,例如,用户在需要查找目标成语“暗度陈仓”的同义词成语进行替换的情况下,用户可以输入问题语句“暗度陈仓的同义词”从而对系统进行提问,系统可以获取问题语句“暗度陈仓的同义词”并从问题语句“暗度陈仓的同义词”识别出目标成语“暗度陈仓”。

步骤204:在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表。

在本申请的一个或多个实施例中,系统采用基于特征标签的成语知识图谱构建方法,构建得到一个成语知识图谱,系统在获取用户提问的所述目标成语之后,通过所述目标成语在所述成语知识图谱中已经标注好的特征标签,从成语知识图谱中匹配所有与目标成语具有完全相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表,以保证所述目标成语与所述候选成语的主要语素相同,通过特征标签之间的联系从而将所述目标成语的近义词与同义词区分开来,例如,对于用户输入的问题语句中目标成语“暗度陈仓”,其即具有同义词如“明修暗度”或“暗送秋波”,也具有近义词如“偷天换日”或“移花接木”,还具有反义词“明目张胆”和“明火执仗”,但是,只有同义词与同义词之间的特征标签是完全相同的,近义词与同义词之间会有一个或多个相同的特征标签而不是完全相同。

步骤206:将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值。

在本申请的一个或多个实施例中,系统利用词嵌入向量对目标成语与所述成语推荐列表中的每个所述候选成语进行相似度计算,从而衡量每个所述候选成语与所述目标成语之间的相似程度。

步骤208:根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

在本申请的一个或多个实施例中,系统根据每个所述候选成语与所述目标成语之间的相似程度对所述成语推荐列表中的候选成语进行筛选,将相似程度不满足要求的疑似近义词从所述成语推荐列表中进行移除,从而得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

在上述实施例中,在得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表之后,还包括:

将所述包含有与所述目标成语为同义词的候选成语的成语推荐列表返回给用户。

在本申请的一个或多个实施例中,系统在生成仅包含有与所述目标成语为同义词的候选成语的成语推荐列表之后,将所述成语推荐列表返回给用户,使得用户能够获取与所述目标成语为同义词的候选成语信息。

本申请针对用户在写作过程中对于同义词和近义词之间的细微差别难以分辨的痛点,通过利用成语知识图谱中的特征标签,保证成语语素的概括以及成语词嵌入向量之间的相似度的计算为用户提供精准的同义词,可以在任何情况下返回与目标成语互相替换的成语所组成的成语推荐列表,使得用户可以在写作工具中直接提问无需切换到第三方工具,对于生成的成语推荐列表,用户无需自己进行同义或近义的辨别,也无需判断成语之间相互替换的可行性,从而缩短了选用成语的路径并保证了成语选择的准确性。

在上述实施例中,如图3所示,在获取用户输入的问题语句之前,还包括步骤302至步骤306:

步骤302:从预设的语料数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息。

在本申请的一个或多个实施例中,系统可以从现有的语料数据库例如网络百科、网络词典或专门数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息,其中,所述语义关系信息包括同义词关系、近义词关系以及反义词关系等。

步骤304:根据所述结构化数据构建成语知识图谱,以使所述成语知识图谱中包含有存在语义关系的成语实体以及每个所述成语实体对应的属性和至少一个特征标签。

在本申请的一个或多个实施例中,如图4所示,在构建的所述成语知识图谱中存在包括同义词关系、近义词关系以及反义词关系,假设成语实体A、成语实体B、成语实体C和成语实体D是所述成语知识图谱中的成语实体,并且成语实体A与成语实体B为同义词关系,成语实体A与成语实体C为近义词关系,成语实体A与成语实体D为反义词关系,则所述成语实体A与成语实体B应当具有完全相同的特征标签,例如“暗度陈仓”和“明修暗度”,由于两个近义词之间虽然意思相近,但是形容的领域往往并不相同,因此所述成语实体A与成语实体C至少拥有一个相同的特征标签,例如“暗度陈仓”和“移花接木”。

步骤306:从预设的汉字词句嵌入语料库中获取所述成语知识图谱中每个成语实体对应的词嵌入向量。

在本申请的一个或多个实施例中,现有的汉字词句嵌入语料库中已经存储有提前通过模型训练好的包括成语在内的中文单词和短语体对应的词嵌入向量,系统能够加载所述成语知识图谱中所有的有限个成语实体对应的词嵌入向量用于后续的相似度计算。

本申请通过结构化数据构建成语知识图谱,基于特征标签将同义词和近义词进行区别,支持用户可以从多侧面获取成语的信息。

图5示出了本说明书一实施例的成语同义词列表的生成方法,该成语同义词列表的生成方法以对成语同义词列表的生成为例进行描述,包括步骤502至步骤516。

步骤502:从预设的语料数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息。

在本申请的一个或多个实施例中,系统可以从现有的语料数据库例如网络百科、网络词典或专门数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息,其中,所述语义关系信息包括同义词关系、近义词关系以及反义词关系等。

步骤504:根据所述结构化数据构建成语知识图谱,以使所述成语知识图谱中包含有存在语义关系的成语实体以及每个所述成语实体对应的属性和至少一个特征标签。

在本申请的一个或多个实施例中,如图4所示,在构建的所述成语知识图谱中存在包括同义词关系、近义词关系以及反义词关系,假设成语实体A、成语实体B、成语实体C和成语实体D是所述成语知识图谱中的成语实体,并且成语实体A与成语实体B为同义词关系,成语实体A与成语实体C为近义词关系,成语实体A与成语实体D为反义词关系,则所述成语实体A与成语实体B应当具有完全相同的特征标签。

步骤506:获取用户输入的问题语句并对所述问题语句进行中文分词,获取所述问题语句中的目标成语对应的文本数据。

在本申请的一个或多个实施例中,系统在获取用户输入的问题语句后,首先通过自然语言处理的中文分词技术将问题语句进行分词,从而将所述目标成语从问题语句中提取出来,并获得所述目标成语对应的子串即文本数据。

步骤508:基于所述目标成语对应的文本数据以及模式匹配算法,在所述语料数据库中获取与所述目标成语对应的文本数据相匹配的成语实体从而识别出所述目标成语。

在本申请的一个或多个实施例中,系统基于模式匹配算法,以所述目标成语对应的子串为模式(关键词),以所述语料数据库为目标进行匹配,在所述语料数据库中寻找所述目标成语从而识别出所述目标成语。

步骤510:在所述成语知识图谱中确定所述目标成语对应的至少一个特征标签。

在本申请的一个或多个实施例中,在确定所述目标成语之后,系统进一步通过成语知识图谱确定所述目标成语对应的至少一个特征标签,其中,所述特征标签是已经标注好且经过人工审核的,用于标注所述目标成语的属性或描述信息,例如成语“暗度陈仓”的语义为“从正面迷惑敌人,用来掩盖自己的攻击路线,而从侧翼进行突然袭击,这是声东击西、出奇制胜的谋略,引申开来,是指用明显的行动迷惑对方,使人不备的策略,也比喻暗中进行活动。”,则其具有特征标签可以包括“军事”、“谋略”以及“暗中”等等。

步骤512:基于所述目标成语对应的至少一个特征标签,在所述成语知识图谱中获取与所述目标成语具有完全相同的特征标签的至少一个成语实体作为候选成语,并生成所述至少一个候选成语对应的成语推荐列表。

在本申请的一个或多个实施例中,由于所述成语知识图谱中的每个成语实体已经对应设置好若干个特征标签,因此系统只需要通过特征标签在成语知识图谱中进行匹配,从而获取与所述目标成语具有完全相同的特征标签的至少一个成语实体作为候选成语,并生成所述至少一个候选成语对应的成语推荐列表,就能够保证选中的候选成语与所述目标成语的主要语素相同。

步骤514:将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值。

在本申请的一个或多个实施例中,系统利用词嵌入向量对目标成语与所述成语推荐列表中的每个所述候选成语进行相似度计算,从而衡量每个所述候选成语与所述目标成语之间的相似程度。

步骤516:根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

在本申请的一个或多个实施例中,系统根据每个所述候选成语与所述目标成语之间的相似程度对所述成语推荐列表中的候选成语进行筛选,将相似程度不满足要求的疑似近义词从所述成语推荐列表中进行移除,从而得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

本申请通过利用成语与其对应的特征标签之间的联系,将近义词与同义词区分开来,从而辨别出用户所需要的同义词,过滤掉会出现混淆的近义词,使得成语推荐列表中的候选成语能够在任何语境下与所述目标成语相互交换。

图6示出了本说明书一实施例的成语同义词列表的生成方法,该成语同义词列表的生成方法以对成语同义词列表的生成为例进行描述,包括步骤602至步骤620。

步骤602:从预设的语料数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息。

在本申请的一个或多个实施例中,系统可以从现有的语料数据库例如网络百科、网络词典或专门数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息,其中,所述语义关系信息包括同义词关系、近义词关系以及反义词关系等。

步骤604:根据所述结构化数据构建成语知识图谱,以使所述成语知识图谱中包含有存在语义关系的成语实体以及每个所述成语实体对应的属性和至少一个特征标签。

在本申请的一个或多个实施例中,如图4所示,在构建的所述成语知识图谱中存在包括同义词关系、近义词关系以及反义词关系,假设成语实体A、成语实体B、成语实体C和成语实体D是所述成语知识图谱中的成语实体,并且成语实体A与成语实体B为同义词关系,成语实体A与成语实体C为近义词关系,成语实体A与成语实体D为反义词关系,则所述成语实体A与成语实体B应当具有完全相同的特征标签。

步骤606:从预设的汉字词句嵌入语料库中获取所述成语知识图谱中每个成语实体对应的词嵌入向量。

在本申请的一个或多个实施例中,现有的汉字词句嵌入语料库中已经存储有提前通过模型训练好的包括成语在内的中文单词和短语体对应的词嵌入向量,系统能够加载所述成语知识图谱中所有的有限个成语实体对应的词嵌入向量用于后续的相似度计算。

步骤608:获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语。

在本申请的一个或多个实施例中,在用户通过终端设备进行文字输入时需要查找特定的目标成语的同义词的情况下,用户可以在写作工具中直接向系统进行提问,系统能够获取用户输入的问题语句,并从所述用户输入的问题语句中识别出用户欲进行同义词查找的所述目标成语,例如,用户在需要查找目标成语“暗度陈仓”的同义词成语进行替换的情况下,用户可以输入问题语句“暗度陈仓的同义词”从而对系统进行提问,系统可以获取问题语句“暗度陈仓的同义词”并从问题语句“暗度陈仓的同义词”识别出目标成语“暗度陈仓”。

步骤610:在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表。

在本申请的一个或多个实施例中,系统采用基于特征标签的成语知识图谱构建方法,构建得到一个成语知识图谱,系统在获取用户提问的所述目标成语之后,通过所述目标成语在所述成语知识图谱中已经标注好的特征标签,从成语知识图谱中匹配所有与目标成语具有完全相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表。

步骤612:基于所述汉字词句嵌入语料库确定所述目标成语对应的词嵌入向量以及所述成语推荐列表中的每个所述候选成语对应的词嵌入向量。

在本申请的一个或多个实施例中,系统在加载后有所述成语知识图谱中所有的有限个成语实体对应的词嵌入向量中确定所述目标成语对应的词嵌入向量以及所述成语推荐列表中的每个所述候选成语对应的词嵌入向量。

步骤614:基于相似度算法,分别计算出所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度。

在本申请的一个或多个实施例中,系统基于相似度算法,分别计算出所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,余弦相似度在高维的情况下依然保持“相同时为1,正交时为0,相反时为-1”的性质,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上,公式如下:

Figure BDA0002225695570000151

特别地,由于余弦相似度衡量的是空间向量的夹角,更加是体现在方向上的差异而不是位置,因此也会存在余弦相似度很高的但两个成语实体为反义词的情况,因此还需要通过特征标签从而保证候选成语与目标成语之间的主要语素相同。

步骤616:将所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度与相似度阈值进行比较,判断所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度是否大于等于所述相似度阈值。若是,则执行步骤618,若否,则执行步骤620。

步骤618:在所述成语推荐列表中保留所述候选成语。

在本申请的一个或多个实施例中,在所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度大于等于所述相似度阈值的情况下,则认为所述目标成语与所述候选成语的相似程度较高,可以判定二者为同义词,从而在所述成语推荐列表中保留所述候选成语。

步骤620:从所述成语推荐列表中移除所述候选成语。

在本申请的一个或多个实施例中,在所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度小于所述相似度阈值的情况下,则认为所述目标成语与所述候选成语的相似程度较弱,还不足以判定二者为同义词,从而在所述成语推荐列表中移除所述候选成语。

可选的,所述相似度阈值可以是0.9。

本申请通过利用词嵌入向量对目标成语与每个所述候选成语计算余弦相似度,利用向量空间中两个向量夹角的余弦值作为衡量两个成语实体之间差异的大小,从而准确可靠的判断出两者是否为同义词。

与上述方法实施例相对应,本说明书还提供了成语同义词列表的生成装置实施例,图7示出了本说明书一个实施例的成语同义词列表的生成装置的结构示意图。如图7所示,该装置包括:

成语识别模块701,被配置为获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;

列表生成模块702,被配置为在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表;

相似度计算模块703,被配置为将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;

列表筛选模块704,被配置为根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

可选的,所述装置还包括:

列表返回模块,被配置为将所述包含有与所述目标成语为同义词的候选成语的成语推荐列表返回给用户。

可选的,所述装置还包括:

数据获取模块,被配置为从预设的语料数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息;

图谱构建模块,被配置为根据所述结构化数据构建成语知识图谱,以使所述成语知识图谱中包含有存在语义关系的成语实体以及每个所述成语实体对应的属性和至少一个特征标签。

可选的,所述装置还包括:

词向量加载模块,被配置为从预设的汉字词句嵌入语料库中获取所述成语知识图谱中每个成语实体对应的词嵌入向量。

可选的,所述成语识别模块包括:

分词单元,被配置为获取用户输入的问题语句并对所述问题语句进行中文分词,获取所述问题语句中的目标成语对应的文本数据;

关键词搜索单元,被配置为基于所述目标成语对应的文本数据以及模式匹配算法,在所述语料数据库中获取与所述目标成语对应的文本数据相匹配的成语实体从而识别出所述目标成语。

可选的,所述列表生成模块包括:

标签确定单元,被配置为在所述成语知识图谱中确定所述目标成语对应的至少一个特征标签;

标签匹配单元,被配置为基于所述目标成语对应的至少一个特征标签,在所述成语知识图谱中获取与所述目标成语具有完全相同的特征标签的至少一个成语实体作为候选成语。

可选的,所述相似度计算模块包括:

词向量确定单元,被配置为基于所述汉字词句嵌入语料库确定所述目标成语对应的词嵌入向量以及所述成语推荐列表中的每个所述候选成语对应的词嵌入向量;

余弦相似度计算单元,被配置为基于相似度算法,分别计算出所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度。

可选的,所述列表筛选模块包括:

阈值比较单元,被配置为将所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度与相似度阈值进行比较,判断所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度是否大于等于所述相似度阈值;若是则执行保留单元,若否,则执行移除单元;

保留单元,被配置为在所述成语推荐列表中保留所述候选成语;

移除单元,被配置为从所述成语推荐列表中移除所述候选成语。

可选的,所述相似度阈值为0.9

本申请针对用户在写作过程中对于同义词和近义词之间的细微差别难以分辨的痛点,通过利用成语知识图谱中的特征标签,保证成语语素的概括以及成语词嵌入向量之间的相似度的计算为用户提供精准的同义词,可以在任何情况下返回与目标成语互相替换的成语所组成的成语推荐列表,使得用户可以在写作工具中直接提问无需切换到第三方工具,对于生成的成语推荐列表,用户无需自己进行同义或近义的辨别,也无需判断成语之间相互替换的可行性,从而缩短了选用成语的路径并保证了成语选择的准确性。

本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:

获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;

在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表;

将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;

根据每个所述候选成语与所述目标成语对应的相似度数值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述成语同义词列表的生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的成语同义词列表的生成方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述成语同义词列表的生成方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于试卷的英语作文自动评阅的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!