新词发现方法及装置、电子设备及存储介质

文档序号：1889941 发布日期：2021-11-26 浏览：8次 >En<

阅读说明：本技术 新词发现方法及装置、电子设备及存储介质 (New word discovery method and device, electronic device and storage medium ) 是由陈诚陈守志董井然张�杰曾令英梁浩强孙雨豪于 2021-03-01 设计创作，主要内容包括：本公开提供一种新词发现方法及装置、电子设备、计算机可读存储介质；涉及计算机技术领域。所述新词发现方法包括：获取多个文本数据,且各所述文本数据均具有类型标签；对所述多个文本数据进行新词提取,以得到一个或多个新词；在各所述类型标签中确定目标类型标签,并计算所述新词与所述目标类型标签之间的相关度指标；依据所述相关度指标,在所述新词中确定出与所述目标类型标签关联的目标新词。本公开通过引入相关性指标,可以在确保新词发现的准确率的同时,提高新词发现的结果与目标类型的相关性。(The present disclosure provides a new word discovery method and apparatus, an electronic device, and a computer-readable storage medium; relates to the technical field of computers. The new word discovery method comprises the following steps: acquiring a plurality of text data, wherein each text data has a type label; extracting new words from the text data to obtain one or more new words; determining a target type label in each type label, and calculating a correlation index between the new word and the target type label; and determining a target new word associated with the target type label in the new words according to the relevance index. According to the method and the device, the relevance index is introduced, so that the relevance between the result of new word discovery and the target type can be improved while the accuracy of new word discovery is ensured.)

新词发现方法及装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种新词发现方法、新词发现装置、电子设备以及计算机可读存储介质。

背景技术

社会经济文化及科学技术的发展与变迁会对语言产生潜移默化的影响，其中，最直观的影响便是新词的出现。新词的来源涵盖生产生活的方方面面，例如，可以是网络新词、可以是生产运营过程催生的新词，还可以是某一行业或某一领域的新词，而如何在文本处理和信息挖掘领域中快速和有效地识别新词也越发重要。在相关技术中，由于只考虑新词判定维度的衡量指标，因此存在新词发现的结果与目标任务无关等问题。

需要说明的是，在上述

背景技术

部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种新词发现方法、新词发现装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的新词发现的结果与目标任务无关的问题。

根据本公开的第一方面，提供一种新词发现方法，包括：

获取多个文本数据，且各所述文本数据均具有类型标签；

对所述多个文本数据进行新词提取，以得到一个或多个新词；

在各所述类型标签中确定目标类型标签，并计算所述新词与所述目标类型标签之间的相关度指标；

依据所述相关度指标，在所述新词中确定出与所述目标类型标签关联的目标新词。

根据本公开的第二方面，提供一种新词发现装置，包括：

文本获取模块，用于获取多个文本数据，且各所述文本数据均具有类型标签；

新词提取模块，用于对所述多个文本数据中进行新词提取，以得到一个或多个新词；

相关度计算模块，用于在各所述类型标签确定目标类型标签，并计算所述新词与所述目标类型标签之间的相关度指标；

目标新词发现模块，用于依据所述相关度指标，在所述新词中确定出与所述目标类型标签关联的目标新词。

在本公开的一种示例性实施例中，所述新词提取模块通过执行以下方法对所述多个文本数据中进行新词提取，以得到一个或多个新词：

将各所述文本数据划分为多个句子，并从各所述句子中提取多个候选词；

计算各所述候选词的邻字丰富度指标及内部凝固度指标；

当所述邻字丰富度指标和所述内部凝固度指标分别大于对应的预设丰富度阈值及预设凝固度阈值时，将所述候选词作为所述新词。

在本公开的一种示例性实施例中，所述新词提取模块通过执行以下步骤从各所述句子中提取多个候选词：

分别以多个不同的字符长度从各所述句子中提取多个所述候选词。

在本公开的一种示例性实施例中，所述新词提取模块通过执行以下方法计算各所述候选词的邻字丰富度指标及内部凝固度指标：

从所述文本数据中获取所述候选词的左右邻字集合，并对应计算所述候选词与所述左右邻字集合间的信息熵，得到所述邻字丰富度指标；

计算所述候选词内部的点间互信息，得到所述内部凝固度指标。

在本公开的一种示例性实施例中，所述新词提取模块通过执行以下步骤计算所述候选词与所述左右邻字集合间的信息熵：

通过公式计算所述候选词与所述左右邻字集合的信息熵E(w)；其中，wnei为所述左右邻字集合。

在本公开的一种示例性实施例中，所述新词提取模块通过执行以下步骤计算所述候选词内部的点间互信息，得到所述内部凝固度指标：

通过公式计算所述内部凝固度指标PMI(x,y)；其中，x,y为所述候选词中的文本片段。

在本公开的一种示例性实施例中，所述相关度计算模块通过执行以下步骤计算所述新词与所述目标类型标签之间的相关度指标：

基于所述目标类型标签、所述新词，以及所述句子计算第一指标，所述第一指标用于表示所述新词属于所述目标类型标签的概率；

基于除所述目标类型标签之外的其他类型标签、所述新词、以及所述句子计算第二指标，所述第二指标用于表示所述新词属于所述其他类型标签的概率；

计算所述第一指标及所述第二指标的比值，得到所述相关度指标。

在本公开的一种示例性实施例中，所述相关度计算模块通过执行以下步骤基于所述目标类型标签、所述新词，以及所述句子计算第一指标：

统计属于所述目标类型标签的所述句子的第一数目，以及属于所述目标类型标签且包含所述新词的所述句子的第二数目；

计算所述第二数目与所述第一数目的比值，得到所述第一指标。

在本公开的一种示例性实施例中，所述相关度计算模块通过执行以下步骤基于除所述目标类型标签之外的其他类型标签、所述新词、以及所述句子计算第二指标：

统计属于所述其他类型标签的所述句子的第三数目，以及属于所述其他类型标签且包含所述新词的所述句子的第四数目；

计算所述第四数目与所述第三数目的比值，得到所述第二指标。

在本公开的一种示例性实施例中，所述目标新词发现模块通过执行以下步骤依据所述相关度指标，在所述新词中确定出与所述目标类型标签关联的目标新词：

依据所述相关度指标对所述新词排序，并依据排序结果确定多个所述目标新词。

在本公开的一种示例性实施例中，所述目标新词发现模块通过执行以下步骤依据排序结果输出多个所述目标新词：

获取所述排序结果中前目标数量个所述新词，作为所述目标新词。

在本公开的一种示例性实施例中，所述目标新词发现模块通过执行以下步骤依据排序结果输出多个所述目标新词：

获取所述排序结果中所述相关度指标大于预设相关度阈值的所述新词，作为所述目标新词。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

根据本公开的第五方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的程序配置管理方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的新词发现方法中，获取多个文本数据，且各文本数据均具有类型标签；对多个文本数据进行新词提取，以得到一个或多个新词；在各类型标签中确定目标类型标签，并计算新词与目标类型标签之间的相关度指标；依据相关度指标，在新词中确定出与目标类型标签关联的目标新词。一方面，通过在各类型标签中确定目标类型标签，可以将新词发现与目标类型关联起来，从而可以获取与特定任务场景相关的新词。另一方面，引入了与目标类型标签的相关性指标，因此可以依据相关程度获取所需的与目标类型标签关联的目标新词。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种新词发现方法及装置的示例性系统架构的示意图；

图2示意性示出了根据本公开的一个实施例的新词发现方法的流程图；

图3示意性示出了根据本公开的一个实施例的对多个文本数据进行新词提取的流程图；

图4示意性示出了根据本公开的一个实施例的依据邻字丰富度指标和内部凝固度指标确定新词的流程的示意图；

图5示意性示出了根据本公开的一个实施例中计算新词与目标类型标签之间的相关度指标的流程的示意图；

图6示意性示出了根据本公开的一个实施例中计算新词属于目标类型标签的概率的流程示意图；

图7示意性示出了根据本公开的一个实施例中计算新词属于其他类型标签的概率的流程示意图；

图8示意性示出了根据本公开的一个应用场景的新词发现方法的流程图；

图9示意性示出了根据本公开的一个实施例的新词发现装置的框图；

图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图11示意性示出了根据本公开的一个实施例的分布式系统应用于区块链系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种新词发现方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的新词发现方法可以由服务器105执行，相应地，新词发现装置可以设置于服务器105中。本公开实施例所提供的新词发现方法也可以由终端设备101、102、103执行，相应地，新词发现装置可以设置于终端设备101、102、103中。本公开实施例所提供的新词发现方法还可以由终端设备101、102、103与服务器105共同执行，相应地，新词发现装置可以设置于终端设备101、102、103与服务器105中，本示例性实施例中对此不做特殊限定。

例如，在本示例实施方式中，服务器105可以通过终端设备101、102、103获取多个文本数据，且各文本数据均具有类型标签；接着，对获取到的多个文本数据进行新词提取，以得到一个或多个新词；在各类型标签中确定目标类型标签，并计算新词与目标类型标签之间的相关度指标；最后依据相关度指标，在新词中确定出与目标类型标签关联的目标新词。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

社会经济文化及科学技术的发展与变迁会催生新词出现，例如，网络新词、生产运营过程催生的新词，或者某一行业或某一领域的新词，而上述自然语言处理及机器学习等人工智能相关技术的发展对于研究这一变迁过程起着积极的促进作用。其中，如何在文本处理和信息挖掘领域中快速和有效地识别新词便是一个非常重要的研究方向。

相关技术基于信息熵来实现上述新词发现的过程。例如，可以通过邻字丰富度以及内部凝固度两个衡量指标来从文本数据中提取出新词。其中，邻字丰富度指标用于衡量文本数据中候选词是否具有丰富的左右邻字，也即通过判断是否具有丰富的语言运用环境来确定候选词是否成词。内部凝固度用于衡量候选词组成词的非偶然性。

上述方法虽然可以从文本数据中获取到新词，但是由于在新词发现时只考虑了候选词的邻字丰富度和内部凝固度指标，却没有考虑到候选词与领域/类目的相关性，无法使提取的新词在应用中产生效果。例如，在金融风控相关的黑灰场景中，需要找出某个欺诈领域的新词，进而发现(新的)欺诈作案手法、套路。在这种场景中，不仅需要发现新词，还需要新词与目标领域/类目密切相关。

为了解决上述方法中存在的问题，在本示例实施方式中，发明人提出了一种新的技术方案，以下对本公开实施例的技术方案进行详细阐述：

本示例实施方式首先提供了一种新词发现方法，该新词发现方法，如图2所示，具体包括以下步骤：

步骤S210：获取多个文本数据，且各文本数据均具有类型标签；

步骤S220：对多个文本数据进行新词提取，以得到一个或多个新词；

步骤S230：在各类型标签中确定目标类型标签，并计算新词与目标类型标签之间的相关度指标；

步骤S240：依据相关度指标，在新词中确定出与目标类型标签关联的目标新词。

在本公开的一示例实施方式所提供的新词发现方法中，一方面，通过在各类型标签中确定目标类型标签，可以将新词发现与目标类型关联起来，从而可以获取与特定任务场景相关的新词。另一方面，引入了与目标类型标签的相关性指标，因此可以依据相关程度获取所需的与目标类型标签关联的目标新词。

下面，对于本示例实施方式的上述步骤进行更加详细的说明：

在步骤S210中，获取多个文本数据，且各文本数据均具有类型标签。

在本示例实施方式中，文本数据为与某一领域相关的文本资料。例如，该文本数据可以为与风控领域相关的文本资料，该文本资料的来源可以是用户投诉文本，也可以是通过问卷调查等其他渠道获取的文本数据，本示例实施方式对此不做特殊限定。

上述各文本数据均具有对应的类型标签，用于表示文本数据所属的类型。以上述风控领域为例，文本数据对应的类型标签可以包含交友欺诈、金融欺诈、刷单返利诈骗等不同类型。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限制。

在步骤S220中，对多个文本数据进行新词提取，以得到一个或多个新词。

本示例实施方式所提供的新词发现方法在获取到文本数据后，首先提取出文本数据中的新词，以便后续进一步获取与目标类型相关的新词。其中，新词指新近创造的词语，是在现代社会发展促进下以及不断的环境变化中所诞生的词语。举例而言，新词可以为未被分词器收录，导致容易分词错误的专有名词、缩略语、流程词汇等类型的词，本示例实施方式对此不做特殊限定。其中，上述分词器用于从一串文本中切分出一个一个的词条,并对每个词条进行标准化。

在本示例实施方式中，上述多个文本数据进行新词提取，以得到一个或多个新词的过程，举例而言，可以通过图3的流程实现，如图3所示，该实现过程可以包括以下步骤：

在步骤S310中，将各文本数据划分为多个句子，并从各句子中提取多个候选词。

在本示例实施方式中，上述文本数据中包含多个句子，每个句子由多个候选词构成。其中，候选词为文本数据中待处理的可能为新词的文本片段。

上述将各文本数据划分为多个句子的过程可以依据文本数据中的标点符号进行。例如，可以按照标点符号切分成多个句子构成的集合：[S₁,S₂,…,S_n]，其中，该句子集合中的各句子的类型标签与句子所属的文本数据的类型标签相同。

上述从各句子中提取多个候选词的过程可以实现如下：分别以多个不同的字符长度从各句子中提取多个候选词。例如，可以以不同长度的元组为单位提取上述各句子里的文本片段作为候选词，其中，元组的长度为候选词的字符长度。具体地，可以提取每个句子中的2元组,3元组，…，n元组作为候选词，其中，n的取值依据实际场景确定，通常情况下n取值为4。以句子“自然语言处理算法”，提取该句子中的2元组为例，得到的2元组包括：[自然，然语，语言，言处，处理，理算，算法]。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，上述提取到的候选词均带有类型标签，且类型标签与所属的句子及文本数据相同，具体地，可以将文本数据或句子类目标签映射到每个候选词上。以上述2元组[自然，然语，语言，言处，处理，理算，算法]为例，若该2元组所属的句子及文本数据的类型标签为交友诈骗，则这个2元组中的所有候选词均具有交友诈骗的类型标签。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S320中，计算各候选词的邻字丰富度指标及内部凝固度指标。

在本示例实施方式中，在得到上述各候选词时，需要基于信息熵来确定各候选词是否为新词。具体地，可以通过计算各候选词的邻字丰富度及内部凝固度来实现。

上述邻字丰富度指标用于衡量候选词语言环境的丰富度，也即该候选词在外部与其他文本片段组合的自由度。以“杯子”和“辈子”这两个候选词为例，对上述邻字丰富度进行详细的解释：针对“杯子”这一候选词，可以有“洗杯子”、“买杯子”、“玻璃杯子”、“设计杯子”等多种不同的文字表达；而“辈子”这一候选词的用法就较为固定，如“一辈子”、“这辈子”、“上辈子”、“下辈子”。由此可以看出，“辈子”这个候选词左边可以出现的文字组合有限，可以认为“辈子”并不单独成词，真正成词的其实是“一辈子”、“这辈子”之类的整体。上述邻字丰富度指标便是用于衡量文本片段的自由运用程度也是判断它是否成词的重要标准。

在本示例实施方式中，计算上述邻字丰富度指标时，由于一个可以成词的文本片段应该能够灵活地出现在各种不同的环境中，具有丰富的左邻字集合和右邻字集合，因此，可以通过计算一个候选词的左右邻字集合的信息熵实现如下：从文本数据中获取候选词的左右邻字集合，并对应计算候选词与左右邻字集合间的信息熵，得到邻字丰富度指标。

其中，上述信息熵是对信息量多少的度量，信息熵越高，表示信息量越丰富、不确定性越大。在获取候选词的左邻字集合或者右邻字集合时，具体地，可以通过以下公式计算左邻字集合对应的左熵或者右邻字集合对应的右熵：

其中，E(w)为上述左熵或右熵，w_nei为上述左邻字集合或右邻字集合，w为候选词。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在本示例实施方式中，上述内部凝固度指标用于衡量候选词组成词语的非偶然性。在实际场景中，组合出现频数比较高的多个字符成词的可能性较大，在此基础上，还需要考虑成词的非偶然性。例如，在一份1900万字的新闻语料中，会出现很多与“的”“在”组合在一起的字符组合，但这两个字符组合出现的频数虽然很高，却显然并不能构成词语。

以“演唱者”以及“的演唱”两个候选词为例，对上述成词的非偶然性进行说明：假设在多个文本数据中，“演唱者”出现117次，“的演唱”出现275次，单从频数来看，“的演唱”成词的可能性更大。但如果把字符组合看作随机事件的话，“演唱”和“者”在文本中分别出现2502,32272次，通过P(演唱)*P(者)＝2.24*10^-7计算得到演唱者的出现概率为2.24*·0^-7，而“演唱者”的实际出现概率为该计算所得的出现概率的27倍。而“的”与“演唱”组合出现的概率为P(的)*P(演唱)＝3.07*10^-6，实际出现概率是它的4.7倍。因此可以得到，“的演唱”这一词语的出现，是常用字“的”经常与其他词出现在一起的结果，“演唱者”才是组成成分之间凝聚程度高的合理中文词汇。需要说明的是，上述场景只是一种示例性的说明，不对本示例实施方式的保护范畴起限定作用。

在本示例实施方式中，计算上述内部凝固度指标可以通过量化候选词内部的凝固程度实现。例如，可以通过计算候选词内部的点间互信息，得到该内部凝固度指标。具体地，可以通过以下公式计算该内部凝固度指标PMI(x,y)：

其中，x,y为候选词中的文本片段。以上述“演唱者”为例，计算该候选词内部凝固度的指标可以为需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S330中，当邻字丰富度指标和内部凝固度指标分别大于对应的预设丰富度阈值及预设凝固度阈值时，将候选词作为新词。

在本示例实施方式中，在通过上述步骤S320计算得到邻字丰富度指标和内部凝固度指标后，基于计算得到的邻字丰富度指标和内部凝固度指标确定出候选词中的新词。例如，可以通过预先设定的丰富度阈值及凝固度阈值来筛选出上述新词。该筛选过程，如图4所示，可以包括以下步骤：

在步骤S410中，判断上述邻字丰富度指标是否大于预设丰富度阈值。

在该步骤中，对候选词的外部组词自由度进行判断，具体地，通过判断上述步骤S320计算得到邻字丰富度指标是否大于预设丰富度阈值实现。若判断结果为是，则继续执行步骤S420；否则，跳转执行步骤S440。

在步骤S420中，判断上述内部凝固度指标是否大于预设凝固度阈值。

在该步骤中，对候选词的内部凝固程度进行判断，具体地，通过判断上述步骤S320计算得到内部凝固度指标是否大于预设凝固度阈值实现。若判断结果为是，则继续执行步骤S430；否则，跳转执行步骤S440。

在步骤S430中，将该候选词确定为新词。

在步骤S440中，丢弃该候选词。

需要说明的是，上述图4的流程步骤只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S230中，在各类型标签中确定目标类型标签，并计算上述新词与目标类型标签之间的相关度指标。

在本示例实施方式中，为了使得提取出的新词与所要处理的任务相关，在通过步骤S220提取出新词后，还可以通过计算新词与目标任务所述的类型标签的相关度来筛选出与任务相关的新词。上述目标类型标签即为与所要处理的任务相关的标签，该标签是在上述各类型标签中确定的。例如，假设步骤S210中获取的文本数据的类型标签包括交友诈骗、金融诈骗、刷单反利诈骗三种类型，而当前任务为确定交友诈骗的犯罪活动线索，则上述目标类型标签应确定为上述三种诈骗类型之中的交友诈骗的类型标签。需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

上述相关度指标用于衡量提取出的新词与上述目标类型标签的相关程度。举例而言，为了使得计算结果更加准确，该相关度指标可以通过新词与目标类型标签，以及与除目标类型标签之外的其他类型标签的相关程度来计算。具体地，如图5所示，该计算可以包括以下步骤：

在步骤S510中，基于目标类型标签、新词，以及句子计算第一指标，该第一指标用于表示新词属于目标类型标签的概率。

在本示例实施方式中，上述第一指标用于表示上述新词属于目标类型标签的概率。该第一指标的计算方法，举例而言，可以通过如图6所示的步骤实现：

在步骤S610中，统计属于目标类型标签的句子的第一数目，以及属于目标类型标签且包含上述新词的句子的第二数目。

在该步骤中，第一数目为多个文本数据中属于目标类型标签的句子的总数，第二数目为多个文本数据中属于目标类型标签且包含有上述新词的句子的总数。该步骤用于统计上述第一数目及第二数目。

在步骤S620中，计算上述第二数目与第一数目的比值，得到上述第一指标。

需要说明的是，上述场景只是一种示例性的说明，本示例实施方式的保护范畴并不以此为限。

在步骤S520中，基于除目标类型标签之外的其他类型标签、新词、以及句子计算第二指标，该第二指标用于表示上述新词属于其他类型标签的概率。

在本示例实施方式中，上述第二指标用于表示上述新词属于除目标类型标签之外的其他类型标签的概率。以上述获取的文本数据的类型标签包括交友诈骗、金融诈骗、刷单反利诈骗三种类型，目标类型标签为交友诈骗为例，其他类型标签即为金融诈骗和刷单反利诈骗。该第二指标的计算方法，举例而言，可以通过如图7所示的步骤实现：

在步骤S710中，统计属于其他类型标签的句子的第三数目，以及属于其他类型标签且包含上述新词的句子的第四数目。

在该步骤中，第三数目为多个文本数据中属于其他类型标签的句子的总数，第四数目为多个文本数据中属于其他类型标签且包含有上述新词的句子的总数。该步骤用于统计上述第三数目及第四数目。

在步骤S720中，计算上述第四数目与第三数目的比值，得到上述第二指标。

在步骤S530中，计算上述第一指标及上述第二指标的比值，得到相关度指标。

本示例实施方式通过上述步骤S510至步骤S530计算上述相关度指标，由于充分考虑了新词属于目标类型标签的概率以及属于其他类型标签的概率，相比于只考虑新词属于目标类型标签的概率，避免了由于新词本身是常用词而使得新词属于目标类型标签的概率较大的情况，提高了相关度计算的可信度和准确性。需要说明的是，上述场景只是一种示例性的说明，也可以通过其他方式计算上述新词与目标类型标签之间的相关度指标，本示例实施方式对此不做特殊限定。

在步骤S240中，依据相关度指标，在新词中确定出与目标类型标签关联的目标新词。

在本示例实施方式中，在计算得到上述新词与目标类型标签的相关度指标后，还可以以该相关度指标为依据，按实际需求在新词中确定出与目标类型标签相关的目标新词。具体地，可以依据相关度指标对新词排序，并依据排序结果确定多个目标新词。例如，可以获取排序结果中前目标数量个新词，作为目标新词，上述目标数量为所需要的与目标类型相关的新词的个数；也可以获取排序结果中相关度指标大于预设相关度阈值的新词，作为所述目标新词，本示例实施方式对此不做特殊限定。

下面，以图8所示的风控应用场景为例，对上述新词发现方法的流程进行完整的描述，如图8所示，该具体应用场景包括以下步骤：

在步骤S810中，获取多个文本数据。

在该步骤中，获取多个文本数据，每个文本数据都具有类型标签。本应用场景为风控场景，获取到的文本数据为多个分别涉及交友欺诈、金融欺诈、刷单返利诈骗的文本数据，例如，可以为用户投诉文本等，对应的类型标签则可以为交友欺诈、金融欺诈、刷单返利诈骗等。

在步骤S820中，将上述文本数据划分为多个句子。

在该步骤中，将上述获取到的多个文本数据按照标点符号切分成多个句子构成的集合[S₁，S₂，...,S_n]，并记录每个句子对应的类型标签label_si，即句子所属的文本数据的类型标签，一个句子可以对应一个或多个类型标签。

在步骤S830中，提取每个句子中的候选词。

在该步骤中，以不同的字符长度从每个句子中提取候选词。例如，可以分别提取每个句子中的2元组，3元组，…，n元组作为候选词，在该具体应用场景中，n的值取4。以“自然语言处理算法”对应的2元组为例，提取的候选词包括：[自然，然语，语言，言处，处理，理算，算法]。同时，将句子对应的类型标签映射到每个候选词上。例如，当上述“自然语言处理算法”出现在交友诈骗的文本数据时，则“自然”这个2元组带有“交友诈骗”标签。

在步骤S840中，计算候选词的邻字丰富度指标和内部凝固度指标。

在该步骤中，计算上述各候选词的邻字丰富度指标和内部凝固度指标，得到对应的邻字丰富度指标的评分score₁以及内部凝固度指标score₂。

其中，计算上述邻字丰富度指标时，由于一个可以成词的文本片段应该能够灵活地出现在各种不同的环境中，具有丰富的左邻字集合和右邻字集合，因此，可以通过计算一个候选词的左右邻字集合的信息熵实现如下：从文本数据中获取候选词的左右邻字集合，并对应计算候选词与左右邻字集合间的信息熵，得到邻字丰富度指标。

其中，E(w)为上述左熵或右熵，w_nei为上述左邻字集合或右邻字集合，w为候选词。

计算上述内部凝固度指标可以通过量化候选词内部的凝固程度实现。例如，可以通过计算候选词内部的点间互信息，得到该内部凝固度指标。具体地，可以通过以下公式计算该内部凝固度指标PMI(x,y)：

其中，x,y为候选词中的文本片段。以上述“演唱者”为例，计算该候选词内部凝固度的指标可以为

在步骤S850中，判断邻字丰富度指标是否大于预设邻字丰富度阈值。

在该步骤中，判断邻字丰富度指标是否大于预设邻字丰富度阈值alpha，若判断结果为是，则继续执行步骤S860，否则，执行步骤S870。

在步骤S860中，判断内部凝固度指标是否大于预设内部凝固度阈值。

在该步骤中，判断内部凝固度指标是否大于预设内部凝固度阈值beta，若判断结果为是，则该候选词作为新词，继续执行步骤S880，否则，执行步骤S870。

在步骤S870中，丢弃该候选词。

在步骤S880中，计算上述新词与目标类型标签的相关度指标。

在该步骤中，计算上述新词与目标类型标签的相关度指标，该目标类型标签由实际任务确定，例如，若当前任务为分析交友诈骗，则目标类型标签为交友诈骗。

上述计算每一个新词ngram_i与目标类型标签的相关度指标的过程可以如下：统计类型标签是目标类型标签label_j的句子总数P_j；统计类型标签是目标类型标签label_j且包含候选词ngram_i的句子总数P_i；统计类型标签不是目标类型标签label_j的句子总数N₀；统计类型标签不是目标类型标签label_j且包含候选词ngram_i的句子总数N_i；通过公式计算得到上述相关度指标。

在步骤S890中，筛选得到目标新词。

在该步骤中，按上述相关性指标降序排列输出与目标类型标签相关的新词，如果只需要最相关的目标数量个新词或者相关性指标大于一定阈值的结果，则可以根据排序结果筛选得到目标新词。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了新词发现装置。参考图9所示，该新词发现装置900可以包括文本获取模块910、新词提取模块920、相关度计算模块930以及目标新词发现模块940。其中：

文本获取模块910，可以用于获取多个文本数据，且各文本数据均具有类型标签；

新词提取模块920，可以用于对多个文本数据进行新词提取，以得到一个或多个新词；

相关度计算模块930，可以用于在各类型标签中确定目标类型标签，并计算上述新词与目标类型标签之间的相关度指标；

目标新词发现模块940，可以用于依据上述相关度指标，在新词中确定出与目标类型标签关联的目标新词。

其中，上述文本数据为与某一领域相关的文本资料。例如，该文本数据可以为与风控领域相关的文本资料，该文本资料的来源可以是用户投诉文本，也可以是通过问卷调查等其他渠道获取的文本数据，本示例实施方式对此不做特殊限定。

在本公开的一种示例性实施例中，新词提取模块通过执行以下方法对多个文本数据中进行新词提取，以得到一个或多个新词：

将各文本数据划分为多个句子，并从各句子中提取多个候选词；

计算各候选词的邻字丰富度指标及内部凝固度指标；

当邻字丰富度指标和内部凝固度指标分别大于对应的预设丰富度阈值及预设凝固度阈值时，将候选词作为新词；

其中，上述邻字丰富度指标用于衡量候选词语言环境的丰富度，也即该候选词在外部与其他文本片段组合的自由度。上述内部凝固度指标用于衡量候选词组成词语的非偶然性。

在本公开的一种示例性实施例中，新词提取模块通过执行以下步骤从各句子中提取多个候选词：

分别以多个不同的字符长度从各句子中提取多个候选词，例如，可以以不同长度的元组为单位提取上述各句子里的文本片段作为候选词，其中，元组的长度为候选词的字符长度。具体地，可以提取每个句子中的2元组,3元组，…，n元组作为候选词，其中，n的取值依据实际场景确定，通常情况下n取值为4。以句子“自然语言处理算法”，提取该句子中的2元组为例，得到的2元组包括：[自然，然语，语言，言处，处理，理算，算法]。

在本公开的一种示例性实施例中，新词提取模块通过执行以下方法计算各候选词的邻字丰富度指标及内部凝固度指标：

从文本数据中获取候选词的左右邻字集合，并对应计算候选词与左右邻字集合间的信息熵，得到邻字丰富度指标；

计算候选词内部的点间互信息，得到内部凝固度指标。

在本公开的一种示例性实施例中，新词提取模块通过执行以下步骤计算候选词与左右邻字集合间的信息熵：

通过公式计算候选词与左右邻字集合的信息熵E(w)；其中，w_nei为左右邻字集合；其中，上述信息熵是对信息量多少的度量，信息熵越高，表示信息量越丰富、不确定性越大。

在本公开的一种示例性实施例中，新词提取模块通过执行以下步骤计算候选词内部的点间互信息，得到内部凝固度指标：

通过公式计算内部凝固度指标PMI(x,y)；其中，x,y为候选词中的文本片段。

在本公开的一种示例性实施例中，上述相关度指标用于衡量提取出的新词与上述目标类型标签的相关程度。举例而言，为了使得计算结果更加准确，该相关度指标可以通过新词与目标类型标签，以及与除目标类型标签之外的其他类型标签的相关程度来计算。具体地，相关度计算模块通过执行以下步骤计算新词与目标类型标签之间的相关度指标：

基于目标类型标签、新词，以及句子计算第一指标，第一指标用于表示新词属于目标类型标签的概率；

基于除目标类型标签之外的其他类型标签、新词、以及句子计算第二指标，第二指标用于表示新词属于其他类型标签的概率；

计算第一指标及第二指标的比值，得到相关度指标。

在本公开的一种示例性实施例中，相关度计算模块通过执行以下步骤基于目标类型标签、新词，以及句子计算第一指标：

统计属于目标类型标签的句子的第一数目，以及属于目标类型标签且包含新词的句子的第二数目；

计算第二数目与第一数目的比值，得到第一指标。

在本公开的一种示例性实施例中，相关度计算模块通过执行以下步骤基于除目标类型标签之外的其他类型标签、新词、以及句子计算第二指标：

统计属于其他类型标签的句子的第三数目，以及属于其他类型标签且包含新词的句子的第四数目；

计算第四数目与第三数目的比值，得到第二指标。

本示例实施方式通过上述步骤计算上述相关度指标，由于充分考虑了新词属于目标类型标签的概率以及属于其他类型标签的概率，相比于只考虑新词属于目标类型标签的概率，避免了由于新词本身是常用词而使得新词属于目标类型标签的概率较大的情况，提高了相关度计算的可信度和准确性。需要说明的是，上述场景只是一种示例性的说明，也可以通过其他方式计算上述新词与目标类型标签之间的相关度指标，本示例实施方式对此不做特殊限定。

在本公开的一种示例性实施例中，目标新词发现模块通过执行以下步骤依据相关度指标，在新词中确定出与目标类型标签关联的目标新词：

依据相关度指标对新词排序，并依据排序结果确定多个目标新词。

在本公开的一种示例性实施例中，目标新词发现模块通过执行以下步骤依据排序结果输出多个目标新词：

获取排序结果中前目标数量个新词，作为目标新词。

在本公开的一种示例性实施例中，目标新词发现模块通过执行以下步骤依据排序结果输出多个目标新词：

获取排序结果中相关度指标大于预设相关度阈值的新词，作为目标新词。

上述新词发现装置中各模块或单元的具体细节已经在对应的新词发现方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，计算机系统1000还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，上述服务器、终端设备都可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端设备等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。其中，节点包括硬件层、中间层、操作系统层和应用层。

图11示出本公开一个示例性实施例提供的分布式系统1100应用于区块链系统的结构示意图，区块链系统中各节点的功能包括：

1、路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2、应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。例如，应用可以用于实现分词功能，得到分词后的文本并形成记录数据，将携带数字签名的记录数据发送到区块链系统中的其他节点。

3、区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。比如，区块链中服务器所在的节点记录了候选词提取过程的记录数据。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述述实施例中所述的方法。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

24页详细技术资料下载

新词发现方法及装置、电子设备及存储介质

相关技术

网友询问留言