一种实体修订方法、装置、计算机设备和可读存储介质

文档序号：1127741 发布日期：2020-10-02 浏览：7次 >En<

阅读说明：本技术 一种实体修订方法、装置、计算机设备和可读存储介质 (Entity revision method, entity revision device, computer equipment and readable storage medium ) 是由张乐情李燕婷李果夫李贤杰刘剑于 2020-06-24 设计创作，主要内容包括：本发明公开了一种实体修订方法,包括：获取待修订文本；将待修订文本输入意图识别模型,以使意图识别模型识别出待修订文本的意图并在待修订文本中标注识别出的意图所对应的文本范围；在识别出的意图不唯一时,按照标注的文本范围将待修订文本拆分为多个待修订子文本,其中,每个待修订子文本唯一对应一个意图；将待修订子文本输入实体提取模型,以使实体提取模型提取出待修订子文本中的实体；从后台数据库获取与待修订子文本的意图关联的标准实体,并利用标准实体对提取的待修订子文本中的实体进行修订。本发明还公开了一种实体修订装置和一种计算机可读存储介质。另外,本发明还涉及人工智能中的模型训练及区块链技术。(The invention discloses an entity revision method, which comprises the following steps: acquiring a text to be revised; inputting the text to be revised into an intention identification model so that the intention identification model identifies the intention of the text to be revised and marks a text range corresponding to the identified intention in the text to be revised; when the identified intention is not unique, splitting the text to be revised into a plurality of sub-texts to be revised according to the marked text range, wherein each sub-text to be revised uniquely corresponds to one intention; inputting the sub-text to be revised into an entity extraction model so that the entity extraction model extracts the entity in the sub-text to be revised; and acquiring a standard entity associated with the intention of the sub-text to be revised from the background database, and revising the entity in the extracted sub-text to be revised by using the standard entity. The invention also discloses an entity revision device and a computer-readable storage medium. In addition, the invention also relates to a model training and block chain technology in artificial intelligence.)

技术领域

本发明涉及计算机技术领域，具体涉及一种实体修订方法、装置、计算机设备和计算机可读存储介质。

背景技术

现有的证券交易市场一般缺少集中竞价平台，因此交易对手的发现和交易意图的发布往往需要通过即时聊天工具实现，如使用自然语言文本在同一聊天室进行消息传输。

然而发明人研究发现，由于会话场合的非正式性，这些自然语言文本通常具有非结构化的特性，甚至存在错误信息或者漏缺信息，也即这些自然语言文本中通常存在错误实体或者漏缺实体。

针对现有交易市场中自然文本语言存在错误实体或者漏缺实体的技术问题，目前尚未提供有效的解决方案。

发明内容

本发明的目的在于提供了一种实体修订方法、装置、计算机设备和计算机可读存储介质，能够解决现有交易市场中自然文本语言存在错误实体或者漏缺实体的技术问题。

本发明的一个方面提供了一种实体修订方法，包括：获取待修订文本；将所述待修订文本输入意图识别模型，以使所述意图识别模型识别出所述待修订文本的意图并在所述待修订文本中标注识别出的意图所对应的文本范围；在识别出的意图不唯一时，按照标注的文本范围将所述待修订文本拆分为多个待修订子文本，其中，每个所述待修订子文本唯一对应一个意图；将所述待修订子文本输入实体提取模型，以使所述实体提取模型提取出所述待修订子文本中的实体；从后台数据库获取与所述待修订子文本的意图关联的标准实体，并利用所述标准实体对提取的所述待修订子文本中的实体进行修订。

可选地，所述方法还包括：获取多条意图识别训练样本，其中，每条所述意图识别训练样本包括历史待修订文本、所述历史待修订文本的意图以及所述历史待修订文本的每个意图所对应的为文本范围；在所述历史待修订文本中存在符合第一预设规则的特征词时，将符合所述第一预设规则的特征词中的每个字转换为M维向量，其中，所述M维向量中的元素表征所述历史待修订文本中存在与所述第一预设规则相匹配的第一预设类型的特征词，M为大于等于1的整数；根据转换得到的M维向量训练机器学习算法得到所述意图识别模型。

可选地，所述根据转换得到的M维向量训练机器学习算法得到所述意图识别模型包括：在所述历史待修订文本中存在符合所述第一预设规则的特征词时，利用第一预设算法将符合所述第一预设规则的特征词中的每个字转换为N维向量，其中，N为大于等于1的整数；将符合所述第一预设规则的特征词中的每个字的N维向量和M维向量拼接成一个L维向量，其中，L＝N+M；根据拼接得到的L维向量训练所述机器学习算法得到所述意图识别模型。

可选地，所述方法还包括：获取多条实体提取训练样本，其中，每条所述实体提取训练样本包括历史待修订子文本和所述历史待修订子文本中的实体；在所述历史待修订子文本中存在符合第二预设规则的特征词时，将符合所述第二预设规则的特征词中的每个字转换为M’维向量，其中，所述M’维向量中的元素表征所述历史待修订子文本中存在与所述第二预设规则相匹配的第二预设类型的特征词，M’为大于等于1的整数；根据转换得到的M’维向量训练机器学习算法得到所述实体提取模型。

可选地，所述根据转换得到的M’维向量训练机器学习算法得到所述实体提取模型包括：在所述历史待修订文本中存在符合所述第二预设规则的特征词时，利用第二预设算法将符合所述第二预设规则的特征词中的每个字转换为N’维向量，其中，N’为大于等于1的整数；将符合所述第二预设规则的特征词中的每个字的N’维向量和M’维向量拼接成一个L’维向量，其中，L’＝N’+M’；根据拼接得到的L’维向量训练所述机器学习算法得到所述实体提取模型。

可选地，所述从后台数据库获取与所述待修订子文本的意图关联的标准实体，并利用所述标准实体对提取的所述待修订子文本中的实体进行修订包括：将所述待修订子文本中属于同一类别的实体划分为一组；将划分得到的每组实体填充至用于进行实体修订的实体修订表的每行；从所述后台数据库获取所述标准实体，并判断填充后的实体修订表中的每行实体与对应类别的标准实体是否一致；若不一致，则利用对应类别的标准实体对填充后的实体修订表中的每行实体进行修订。

可选地，所述将划分得到的每组实体填充至用于进行实体修订的实体修订表的每行包括：将划分得到的每组实体、每组实体所属待修订子文本的意图以及每组实体所属待修订子文本对应的用户信息填充至所述实体修订表的每行。

可选地，所述方法还包括：获取目标用户输入的目标文本；将所述目标文本输入所述意图识别模型和所述实体提取模型，以使所述意图识别模型识别出所述目标文本的意图，并使所述实体提取模型提取出所述目标文本中的实体；从修订后的实体修订表中筛选出与所述目标文本的意图和实体相匹配的用户信息，并将筛选出的用户信息推荐给所述目标用户。

本发明的再一个方面提供了一种实体修订装置，包括：第一获取模块，用于获取待修订文本；第一输入模块，用于将所述待修订文本输入意图识别模型，以使所述意图识别模型识别出所述待修订文本的意图并在所述待修订文本中标注识别出的意图所对应的文本范围；拆分模块，用于在识别出的意图不唯一时，按照标注的文本范围将所述待修订文本拆分为多个待修订子文本，其中，每个所述待修订子文本唯一对应一个意图；第二输入模块，用于将所述待修订子文本输入实体提取模型，以使所述实体提取模型提取出所述待修订子文本中的实体；修订模块，用于从后台数据库获取与所述待修订子文本的意图关联的标准实体，并利用所述标准实体对所述待修订子文本中的实体进行修订。

本发明的再一个方面提供了一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的利用实体修订方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的实体修订方法。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明提供的实体修订方法，对于待修订文本，先通过意图识别模型识别出该待修订文本的意图并在该待修订文本中标注出意图所对应的文本范围，由于不同意图对应的实体存在差别，在进行实体修订时所使用的标准实体也存在一定差异，因此当待修订文本存在多个意图时，需要先依靠意图识别模型在待修订文本中标注的每个意图对应的文本范围将待修订文本拆分为多个待修订子文本，每个待修订子文本只存在一个意图，进一步，对于任一待修订子文本通过实体提取模型提取出该待修订子文本包含的实体，然后利用与该待修订子文本的意图关联的标准实体对提取的实体进行修订，实现了对文本中的实体进行修订的目的，解决了现有交易市场中自然文本语言存在错误实体或者漏缺实体的技术问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明实施例的实体修订方法的流程图；

图2示意性示出了根据本发明实施例的实体修订方案的示意图；

图3示意性示出了根据本发明实施例的模型训练过程的示意图；

图4示意性示出了根据本发明实施例的实体修订装置的框图；

图5示意性示出了根据本发明实施例的适于实现实体修订方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

图1示意性示出了根据本发明实施例的实体修订方法的流程图，如图1所示，该实体修订方法可以包括步骤S1～步骤S5，其中：

步骤S1，获取待修订文本。

以证券交易场景为例，多个用户通过网络平台发布证券信息形成一个对话文本，该对话文本包括由用户和时间划分成的多个子文本，每个子文本即可称为一个待修订文本。本实施例中，对于每个用户而言，将其一次性发布的对话作为一个待修订文本，也即从该用户对应的对话开始位置直到下一个用户对话开始之前的全部文本均作为该用户的一个待修订文本。

其中，需要从对话文本中获取待修订文本，具体为：识别对话文本中的所有起始位置标识和与每个起始位置标识对应的结束位置标识；将对话文本中位于每个起始位置标识和与起始位置标识对应的结束位置标识之间的文本作为一个待修订文本。其中，对话文本中可以包括宏观经济数据。

例如，对话文本包括：

用户A 2019/3/2/11:14:15

高性价比非公开出售

03889Y 125610.5H珠投01AA+/AA+6000W估值7.345

0.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645

用户B 2019/3/2/11:16:51

对第二支比较感兴趣

即0.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645

预出售

1.1479+2Y 031772042.18 17南充空港PPN001 AA/0 5000W估值6.6045

则，对于用户A，对应一个待修订文本，即【高性价比非公开出售03889Y125610.5H珠投01AA+/AA+6000W估值7.3450.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645】；对于用户B，对应一个待修订文本，即【对第二支比较感兴趣即0.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645预出售1.1479+2Y 031772042.18 17南充空港PPN001 AA/05000W估值6.6045】。其中，以用户A对应的待修订文本为例，“高性价比非公开出售”处存在一个起始位置标识，“0.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645”处存在一个结束位置标识，该起始位置标识和结束位置标识之间的文本即为该待修订文本，并且与该待修订文本关联的“用户A 2019/3/2/11:14:15”中，可以解读出用户A的用户信息。

步骤S2，将所述待修订文本输入意图识别模型，以使所述意图识别模型识别出所述待修订文本的意图并在所述待修订文本中标注识别出的意图所对应的文本范围。

本实施例中，意图识别模型不仅具有识别意图的功能，还能够标注出意图对应的文本范围，如加粗标注、改变字体标注或添加下划线标注等。

例如，结合上述示例，针对用户A对应的待修订文本，意图为售出，且文本范围为整个待修订文本；对于用户B对应的待修订文本，意图为购买和售出，购买意图对应的文本范围为【对第二支比较感兴趣即0.9342+2Y 145678.5H兴阳02AA/0 3000W估值】，售出意图对应的文本范围为【预出售1.1479+2Y031772042.18 17南充空港PPN001 AA/0 5000W估值6.6045】。

可选地，在执行步骤S2之前，需要先利用训练集对机器学习算法进行训练以训练出意图识别模型。现有技术在训练任何模型过程中，都是单纯的基于样本数据让机器自动学习其中的规律，然而发明人研究发现，在训练模型时如果只基于样本数据让机器自动学习其中的规律，则需要使用到大量的样本数据，而每条样本数据均需要人工标注，非常耗时耗力；而直接使用少量的样本数据进行模型训练则容易出现过拟合现象，使得模型泛化性能非常差。基于此，发明人考虑到可以利用专家规则将样本数据的规律提前为机器标注出来，这样节省了机器自我学习规律的时间，从而达到使用较小数据量的样本数据也可以让机器完成自我学习的目的，降低样本数据的数据量。具体地，所述方法还可以包括步骤A1～步骤A3，其中：

步骤A1，获取多条意图识别训练样本，其中，每条所述意图识别训练样本包括历史待修订文本、所述历史待修订文本的意图以及所述历史待修订文本的每个意图所对应的为文本范围；

步骤A2，在所述历史待修订文本中存在符合第一预设规则的特征词时，将符合所述第一预设规则的特征词中的每个字转换为M维向量，其中，所述M维向量中的元素表征所述历史待修订文本中存在与所述第一预设规则相匹配的第一预设类型的特征词，M为大于等于1的整数；

步骤A3，根据转换得到的M维向量训练机器学习算法得到所述意图识别模型。

本实施例中，将历史待修订文本作为输入参数，历史待修订文本的意图以及历史待修订文本的每个意图所对应的为文本范围作为输出参数，对机器学习算法进行训练。在训练过程中，当历史待修订文本中存在符合第一预设规则的特征词时，将符合第一预设规则的特征词中的每个字转换为M维向量，然后利用转后得到的M维向量对机器学习算法进行训练。需要说明的是，在机器从这些意图识别训练样本中学习规律时，由于已经通过向量提前告诉机器哪些字组合在一起构成的特征词是何种类型的，相当于提前告诉了机器意图识别训练集中的特征词所符合的规则，这样，极大地降低机器自我学习时间，加快了学习速度，同时降低了样本的数量级。其中，机器学习算法可以包括支持向量机(Support VectorMachine，SVM)、卷积神经网络(Convolutional Neural Network，CNN)或长短期记忆网络(LSTM，Long Short-Term Memory)等。

例如，某个历史待修订文本为“0.1726+2Y 145066.SH 16泉丰01AA/AA8000w估值5.469 7.5*”，其中，0.1726+2Y为到期时长还有2.1726年，145066.SH为债券编号，16泉丰01为债券简称，AA/AA分别为对应的内外评级，8000w指交易量为八千万，5.469为中债估值价格，7.5*指报价为7.5，并且价格可谈。预设类型的特征词分别为0.1726+2Y、145066.SH、16泉丰01、AA/AA、8000w、5.469和7.5*。以第一预设类型为“交易量”为例，“交易量”的特征词为“8000w”，对应的第一预设规则可以为“尾数为w且数字范围大于100”，且可以用“1”表示历史子文本中存在交易量这一类型的特征词，则“8000w”中“8”对应的M维向量可以为[1]，第一个“0”对应的M维向量可以为[1]，第二个“0”对应的M维向量可以为[1]，第三个“0”对应的M维向量可以为[1]，“w”对应的M维向量可以为[1]。当机器学习到该部分时，由于识别到“8”对应的向量中最后一位是1，则机器知道该历史子文本可能存在“交易量”的特征词，机器继续识别所有最后一位是1的向量，将这些向量按顺序拼接起来机器即可知道“交易量”的特征词“8000w”。

可选地，步骤A3还可以包括步骤A31～步骤A33，其中：

步骤A31，在所述历史待修订文本中存在符合所述第一预设规则的特征词时，利用第一预设算法将符合所述第一预设规则的特征词中的每个字转换为N维向量，其中，N为大于等于1的整数；

步骤A32，将符合所述第一预设规则的特征词中的每个字的N维向量和M维向量拼接成一个L维向量，其中，L＝N+M；

步骤A33，根据拼接得到的L维向量训练所述机器学习算法得到所述意图识别模型。

其中，第一预设算法可以为bert算法。

例如，利用bert将“8000w”中“8”转换为N维向量可以为[0101110]，第一个“0”对应的N维向量可以为[0011000]，第二个“0”对应的N维向量可以为[0011000]，第三个“0”对应的N维向量可以为[0011000]，“w”对应的N维向量可以为[1100010]。将“8000w”中“8”的N维向量和M维向量拼接为L维向量[01011101]，第一个“0”的N维向量和M维向量拼接为L维向量[00110001]，第二个“0”的N维向量和M维向量拼接为L维向量[00110001]，第三个“0”的N维向量和M维向量拼接为L维向量[00110001]，“w”的N维位向量和M维向量拼接为L维向量[1100011]。当机器学习到该部分时，由于识别到“8”对应的L维向量中最后一位是1，则机器知道该历史待修订文本可能存在“交易量”的特征词，机器继续识别所有最后一位是1的L维向量，将这些L维向量按顺序拼接起来机器即可知道“交易量”的特征词“8000w”。

优选地，为进一步保证上述意图识别模型的私密性和安全性，上述意图识别模型还可以存储于一区块链的节点中。

步骤S3，在识别出的意图不唯一时，按照标注的文本范围将所述待修订文本拆分为多个待修订子文本，其中，每个所述待修订子文本唯一对应一个意图。

本实施例中，在每个待修订文本表征的意图不只一个时，需要将该待修订文本按照意图进行拆分，以保证拆分得到的每个待修订子文本只表征一个意图。具体地，由于步骤S2已经标注了每个意图对应的文本范围，因此可以根据文本范围对待修订文本进行拆分，其中，拆分待修订文本得到的待修订子文本的数量与该待修订文本表征的意图的数量一致。

步骤S4，将所述待修订子文本输入实体提取模型，以使所述实体提取模型提取出所述待修订子文本中的实体。

本实施例中，实体提取模型具有提取实体的功能。例如，实体为：证券名称、证券编号以及证券估值等等。

可选地，实体提取模型还可以将提取出的实体转化为规范格式的实体。如实体提取模型中包括两个模块，第一个模块用于提取待修订子文本中的实体，第二个模块用于将提取的实体的格式转换为规范格式，例如，实体为：证券名称、证券编号以及证券估值等等，证券估值的规范格式为单位为w，则对于证券估值1.43百万转换为规范格式的实体后为：证券估值143w。需要说明的是，第一个模块对应的训练集包括多条实体提取训练样本，每条实体提取训练样本包括作为输入参数的历史待修订子文本和作为输出参数的历史待修订子文本的实体；第二个模块对应的训练集包括多条规范实体训练样本，每条规范实体训练样本包括作为输入参数的由第一模块输出的历史待修订子文本的实体和作为输出参数的规范格式的实体。需知，第二模块输入的实体中，有些实体可能是规范格式，有些实体可能是非规范格式，而输出的规范格式的实体全部的都是规范格式的。例如，输入的实体为证券估值1.43百万和证券数量100万，输出的规范格式的实体为证券估值143w和证券数量100w。

可选地，在执行步骤S4之前，需要先利用训练集对机器学习算法进行训练以训练出实体提取模型。现有技术在训练任何模型过程中，都是单纯的基于样本数据让机器自动学习其中的规律，然而发明人研究发现，在训练模型时如果只基于样本数据让机器自动学习其中的规律，则需要使用到大量的样本数据，而每条样本数据均需要人工标注，非常耗时耗力；而直接使用少量的样本数据进行模型训练则容易出现过拟合现象，使得模型泛化性能非常差。基于此，发明人考虑到可以利用专家规则将样本数据的规律提前为机器标注出来，这样节省了机器自我学习规律的时间，从而达到使用较小数据量的样本数据也可以让机器完成自我学习的目的，降低样本数据的数据量。具体地，所述方法还包括步骤B1～步骤B3，其中：

步骤B1，获取多条实体提取训练样本，其中，每条所述实体提取训练样本包括历史待修订子文本和所述历史待修订子文本中的实体；

步骤B2，在所述历史待修订子文本中存在符合第二预设规则的特征词时，将符合所述第二预设规则的特征词中的每个字转换为M’维向量，其中，所述M’维向量中的元素表征所述历史待修订子文本中存在与所述第二预设规则相匹配的第二预设类型的特征词，M’为大于等于1的整数；

步骤B3，根据转换得到的M’维向量训练机器学习算法得到所述实体提取模型。

本实施例中，将历史待修订子文本作为输入参数，历史待修订子文本的中的实体作为输出参数，对机器学习算法进行训练。在训练过程中，当历史待修订子文本中存在符合第二预设规则的特征词时，将符合第二预设规则的特征词中的每个字转换为M’维向量，然后利用转后得到的M’维向量对机器学习算法进行训练。需要说明的是，在机器从这些实体提取训练样本中学习规律时，由于已经通过向量提前告诉机器哪些字组合在一起构成的特征词是何种类型的，相当于提前告诉了机器实体提取训练集中的特征词所符合的规则，这样，极大地降低机器自我学习时间，加快了学习速度，同时降低了样本的数量级。

例如，某个历史待修订子文本为“0.1726+2Y 145066.SH 16泉丰01AA/AA8000w估值5.469 7.5*”，其中，0.1726+2Y为到期时长还有2.1726年，145066.SH为债券编号，16泉丰01为债券简称，AA/AA分别为对应的内外评级，8000w指交易量为八千万，5.469为中债估值价格，7.5*指报价为7.5，并且价格可谈。第二预设类型的特征词分别为0.1726+2Y、145066.SH、16泉丰01、AA/AA、8000w、5.469和7.5*。以第二预设类型为“交易量”为例，“交易量”的特征词为“8000w”，对应的第二预设规则可以为“尾数为w且数字范围大于100”，且可以用“1”表示历史子文本中存在交易量这一类型的特征词，则“8000w”中“8”对应的M维向量可以为[1]，第一个“0”对应的M维向量可以为[1]，第二个“0”对应的M维向量可以为[1]，第三个“0”对应的M维向量可以为[1]，“w”对应的M维向量可以为[1]。当机器学习到该部分时，由于识别到“8”对应的向量中最后一位是1，则机器知道该历史子文本可能存在“交易量”的特征词，机器继续识别所有最后一位是1的向量，将这些向量按顺序拼接起来机器即可知道“交易量”的特征词“8000w”。

可选地，步骤B3还可以包括步骤B31～步骤B33，其中：

步骤B31，在所述历史待修订文本中存在符合所述第二预设规则的特征词时，利用第二预设算法将符合所述第二预设规则的特征词中的每个字转换为N’维向量，其中，N’为大于等于1的整数；

步骤B32，将符合所述第二预设规则的特征词中的每个字的N’维向量和M’维向量拼接成一个L’维向量，其中，L’＝N’+M’；

步骤B33，根据拼接得到的L’维向量训练所述机器学习算法得到所述实体提取模型。

其中，第二预设算法可以为bert算法。本实施例中的“第一“和”第二“仅仅是用于名词的区分，并代表步骤的先后顺序，如第一预设算法和第二预设算法均可以指代某一种算法。

例如，利用bert将“8000w”中“8”转换为N’维向量可以为[0101110]，第一个“0”对应的N’维向量可以为[0011000]，第二个“0”对应的N’维向量可以为[0011000]，第三个“0”对应的N’维向量可以为[0011000]，“w”对应的N’维向量可以为[1100010]。将“8000w”中“8”的N’维向量和M’维向量拼接为L’维向量[01011101]，第一个“0”的N’维向量和M’维向量拼接为L’维向量[00110001]，第二个“0”的N’维向量和M’维向量拼接为L’维向量[00110001]，第三个“0”的N’维向量和M’维向量拼接为L’维向量[00110001]，“w”的N’维位向量和M’维向量拼接为L’维向量[1100011]。当机器学习到该部分时，由于识别到“8”对应的L’维向量中最后一位是1，则机器知道该历史待修订子文本可能存在“交易量”的特征词，机器继续识别所有最后一位是1的L’维向量，将这些L’维向量按顺序拼接起来机器即可知道“交易量”的特征词“8000w”。

优选地，为进一步保证上述实体提取模型的私密性和安全性，上述实体提取模型还可以存储于一区块链的节点中。

步骤S5，从后台数据库获取与所述待修订子文本的意图关联的标准实体，并利用所述标准实体对提取的所述待修订子文本中的实体进行修订。

本实施例中，修订包括勘误和补全，如纠正实体的错误，补充没有提及的必要信息。其中，不同意图对应的实体可能存在差异，如购买意图中存在购买价格，售出意图中存在售出价格，因此本实施例可以根据意图获取标准实体，在以获取的标准实体为基准，对待修订子文本中的实体进行修订，其中，标准实体为标准且正确的实体。

可选地，为了方便管理，还可以将提取的实体填充至数据表中，如步骤S5还可以包括步骤S51～步骤S54，其中：

步骤S51，将所述待修订子文本中属于同一类别的实体划分为一组；

步骤S52，将划分得到的每组实体填充至用于进行实体修订的实体修订表的每行；

步骤S53，从所述后台数据库获取所述标准实体，并判断填充后的实体修订表中的每行实体与对应类别的标准实体是否一致；

步骤S54，若不一致，则利用对应类别的标准实体对填充后的实体修订表中的每行实体进行修订。

本实施例中，同一类别的实体即属于同一信息链的实体。如，对于待修订子文本：【高性价比非公开出售03889Y 125610.5H珠投01AA+/AA+6000W估值7.3450.9342+2Y145678.5H兴阳02AA/0 3000W估值5.5645】，一个信息链为【03889Y 125610.5H珠投01AA+/AA+6000W估值7.345】，另一个信息链为【0.9342+2Y 145678.5H兴阳02AA/0 3000W估值5.5645】。同一类型的实体中包括多个类别的实体，如同一类型的实体“03889Y、125610.5H、珠投、01、AA+/AA+、6000W、估值和7.345“中包括8中类型的实体。

实体修订表为一个数据表，包括多行多列，每列对应一个实体。如实体修订表中首行填充固定的实体名，其余每行通过实体名的匹配填充对应的一组所提取的实体值。进一步，将同类别的标准实体与填充后的实体修订表中的每行实体进行匹配，一旦存在不匹配的实体，则利用对应的标准实体进行修订。

例如，对于A类证券，证券编码是固定的，对于固定的正确的证券编码即可称为标准实体，通过将标准的证券编码与实体修订表中的证券编码对比，若不一致或者实体修订表中证券编码缺失，则将标准的证券编码替换或补充至对应位置。

可选地，步骤S52还可以包括：将划分得到的每组实体、每组实体所属待修订子文本的意图以及每组实体所属待修订子文本对应的用户信息填充至所述实体修订表的每行。所述方法还可以包括步骤C1～步骤C3，其中：步骤C1，获取目标用户输入的目标文本；步骤C2，将所述目标文本输入所述意图识别模型和所述实体提取模型，以使所述意图识别模型识别出所述目标文本的意图，并使所述实体提取模型提取出所述目标文本中的实体；步骤C3，从修订后的实体修订表中筛选出与所述目标文本的意图和实体相匹配的用户信息，并将筛选出的用户信息推荐给所述目标用户。

本实施例中，还可以将每组实体所属的待修订子文本的意图以及每组实体所属的待修订子文本对应的用户信息填充该实体修订表的每行。其中，步骤C1和步骤C2的具体实现方法与步骤S1、步骤S2和步骤S4类似，此处不再赘述。对于步骤C3，通过将目标文本的意图和实体与修订后的实体修订表中的意图和实体项匹配，可以从修订后的实体信息表中筛选出最匹配一行或多行数据，进一步，可以将筛选出的每行数据中记录的用户信息提取出来并推荐给目标用户。

例如，识别出的意图为售出，则可以修订后的实体修订表中筛选出意图为购买且实体与目标文本的实体匹配的一行或多行数据，然后提取出筛选的每行数据的用户信息并推荐给目标用户。

又例如，识别出的意图为售出，则可以修订后的实体修订表中筛选出意图也为售出且实体与目标文本的实体匹配的一行或多行数据，然后提取出筛选的每行数据的用户信息并推荐给目标用户。

图2示意性示出了根据本发明实施例的实体修订方案的示意图。

如图2所示，以证券交易场景为例，左边的文本即为一个对话文本，任一用户在一个时间内发布的信息称为一个待修订文本。对应任一待修订文本，通过分类模型可以确定其所属领域(也即文本主体分类)，如证券领域。然后将待修订文本输入该领域对应的意图识别模型(即交易意图解析)，在存在多个意图时，将待修订文本进一步拆分成多个待修订子文本(即信息正文分段)，然后通过实体提取模型提取出实体(即元信息提取)，在将提取的每组实体填充至实体修订表的每行中，每行包括多个信息槽位，如图中的信息槽位1、信息槽位2、…和信息槽位k。然后从后台数据库获取对应的标准实体，进行实体修订(即证券信息匹配以及信息勘误和补全)，并将修订后的实体修订表存储至交易意图数据库中。进一步，当交易员发布了预交易信息后，可以从修订后的实体修订表中筛选出匹配的对手信息并推荐给交易员。

其中，意图识别模型和实体识别模型的训练过程如图3所示，图3示意性示出了根据本发明实施例的模型训练过程的示意图。对于图3中的输入数据，在意图识别模型训练过程中，可以先通过bert对符合第一预设规则的特征词的每个字转换为一个N维向量，然后利用专家规则将符合第一预设规则的特征词的每个字转换为一个M维向量，进一步进行特征融合形成L维向量，然后训练机器学习算法如神经网络意图分类器得到意图识别模型，进而可以执行意图识别功能。在实体提取模型训练过程中，可以先通过bert对符合第二预设规则的特征词的每个字转换为一个N’维向量，然后利用专家规则将符合第二预设规则的特征词的每个字转换为一个M’维向量，进一步进行特征融合形成L’维向量，然后训练机器学习算法如NER(Named Entity Recognition)实体抽取模型得到实体提取模型，进而可以执行实体提取功能(即关键词提取)。

本发明的实施例提供了一种实体修订装置，该利用实体修订装置与上述实施例所述的实体修订方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例。具体地，图4示意性示出了根据本发明实施例的实体修订装置的框图，如图4所示，该实体修订装置400可以包括第一获取模块401、第一输入模块402、拆分模块403、第二输入模块404和修订模块405，其中：

第一获取模块401，用于获取待修订文本；

第一输入模块402，用于将所述待修订文本输入意图识别模型，以使所述意图识别模型识别出所述待修订文本的意图并在所述待修订文本中标注识别出的意图所对应的文本范围；

拆分模块403，用于在识别出的意图不唯一时，按照标注的文本范围将所述待修订文本拆分为多个待修订子文本，其中，每个所述待修订子文本唯一对应一个意图；

第二输入模块404，用于将所述待修订子文本输入实体提取模型，以使所述实体提取模型提取出所述待修订子文本中的实体；

修订模块405，用于从后台数据库获取与所述待修订子文本的意图关联的标准实体，并利用所述标准实体对提取的所述待修订子文本中的实体进行修订。

可选地，所述装置还可以包括：第二获取模块，用于获取多条意图识别训练样本，其中，每条所述意图识别训练样本包括历史待修订文本、所述历史待修订文本的意图以及所述历史待修订文本的每个意图所对应的为文本范围；第一转换模块，用于在所述历史待修订文本中存在符合第一预设规则的特征词时，将符合所述第一预设规则的特征词中的每个字转换为M维向量，其中，所述M维向量中的元素表征所述历史待修订文本中存在与所述第一预设规则相匹配的第一预设类型的特征词，M为大于等于1的整数；第一训练模块，用于根据转换得到的M维向量训练机器学习算法得到所述意图识别模型。

可选地，所述第一训练模块还可以用于：在所述历史待修订文本中存在符合所述第一预设规则的特征词时，利用第一预设算法将符合所述第一预设规则的特征词中的每个字转换为N维向量，其中，N为大于等于1的整数；将符合所述第一预设规则的特征词中的每个字的N维向量和M维向量拼接成一个L维向量，其中，L＝N+M；根据拼接得到的L维向量训练所述机器学习算法得到所述意图识别模型。

可选地，所述装置还可以包括：第三获取模块，用于获取多条实体提取训练样本，其中，每条所述实体提取训练样本包括历史待修订子文本和所述历史待修订子文本中的实体；第二转换模块，用于在所述历史待修订子文本中存在符合第二预设规则的特征词时，将符合所述第二预设规则的特征词中的每个字转换为M’维向量，其中，所述M’维向量中的元素表征所述历史待修订子文本中存在与所述第二预设规则相匹配的第二预设类型的特征词，M’为大于等于1的整数；第二训练模块，用于根据转换得到的M’维向量训练机器学习算法得到所述实体提取模型。

可选地，所述第二训练模块还可以用于：在所述历史待修订文本中存在符合所述第二预设规则的特征词时，利用第二预设算法将符合所述第二预设规则的特征词中的每个字转换为N’维向量，其中，N’为大于等于1的整数；将符合所述第二预设规则的特征词中的每个字的N’维向量和M’维向量拼接成一个L’维向量，其中，L’＝N’+M’；根据拼接得到的L’维向量训练所述机器学习算法得到所述实体提取模型。

可选地，所述修订模块还可以用于：将所述待修订子文本中属于同一类别的实体划分为一组；将划分得到的每组实体填充至用于进行实体修订的实体修订表的每行；从所述后台数据库获取所述标准实体，并判断填充后的实体修订表中的每行实体与对应类别的标准实体是否一致；若不一致，则利用对应类别的标准实体对填充后的实体修订表中的每行实体进行修订。

可选地，所述修订模块在执行将划分得到的每组实体填充至用于进行实体修订的实体修订表的每行的步骤时，还可以用于：将划分得到的每组实体、每组实体所属待修订子文本的意图以及每组实体所属待修订子文本对应的用户信息填充至所述实体修订表的每行。

可选地，所述装置还可以包括：第四获取模块，用于获取目标用户输入的目标文本；第三输入模块，用于将所述目标文本输入所述意图识别模型和所述实体提取模型，以使所述意图识别模型识别出所述目标文本的意图，并使所述实体提取模型提取出所述目标文本中的实体；筛选模块，用于从修订后的实体修订表中筛选出与所述目标文本的意图和实体相匹配的用户信息，并将筛选出的用户信息推荐给所述目标用户。

图5示意性示出了根据本发明实施例的适于实现实体修订方法的计算机设备的框图。本实施例中，计算机设备500可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图5所示，本实施例的计算机设备500至少包括但不限于：可通过系统总线相互通信连接的存储器501、处理器502、网络接口503。需要指出的是，图5仅示出了具有组件501-503的计算机设备500，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器503至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器501可以是计算机设备500的内部存储单元，例如该计算机设备500的硬盘或内存。在另一些实施例中，存储器501也可以是计算机设备500的外部存储设备，例如该计算机设备500上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器501还可以既包括计算机设备500的内部存储单元也包括其外部存储设备。在本实施例中，存储器501通常用于存储安装于计算机设备500的操作系统和各类应用软件，例如实体修订方法的程序代码等。此外，存储器501还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器502在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器502通常用于控制计算机设备500的总体操作。例如执行与计算机设备500进行数据交互或者通信相关的控制和处理等的实体修订方法的程序代码。

在本实施例中，存储于存储器501中的实体修订方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器502)所执行，以完成本发明。

网络接口503可包括无线网络接口或有线网络接口，该网络接口503通常用于在计算机设备500与其他计算机设备之间建立通信链接。例如，网络接口503用于通过网络将计算机设备500与外部终端相连，在计算机设备500与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现实体修订方法。进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

21页详细技术资料下载

一种实体修订方法、装置、计算机设备和可读存储介质

相关技术

网友询问留言