特征信息的识别方法、装置及计算机可读存储介质

文档序号：1170292 发布日期：2020-09-18 浏览：7次 >En<

阅读说明：本技术 特征信息的识别方法、装置及计算机可读存储介质 (Feature information identification method and device and computer readable storage medium ) 是由王伟于 2020-05-29 设计创作，主要内容包括：本发明涉及一种人工智能技术,揭露了一种特征信息的识别方法,包括：获取组织机构名称的待识别文本,计算待识别文本的拼音对应的汉字组合的平均字向量；获取组织机构名称所属的目标行业类别,以及获取目标行业类别所属的目标簇类；计算汉字组合中每个汉字组合的平均字向量与目标行业类别的平均行业向量的第一相似度；计算汉字组合中每个汉字组合的平均字向量与目标簇类的平均簇类向量的第二相似度,将多个第一相似度与多个第二相似度进行权重计算,确定权重计算得分最高的汉字组合为组织机构名称的汉字组合。本发明还提出一种特征信息的识别装置、电子设备以及一种计算机可读存储介质。本发明可以提高识别语音信息中存在的机构组织名称的准确性。(The invention relates to an artificial intelligence technology, and discloses a method for identifying characteristic information, which comprises the following steps: acquiring a text to be identified of the name of the organization, and calculating an average word vector of a Chinese character combination corresponding to the pinyin of the text to be identified; acquiring a target industry class to which an organization name belongs and acquiring a target cluster class to which the target industry class belongs; calculating the first similarity between the average word vector of each Chinese character combination in the Chinese character combinations and the average industry vector of the target industry category; and calculating second similarity of the average word vector of each Chinese character combination in the Chinese character combinations and the average cluster class vector of the target cluster class, performing weight calculation on the plurality of first similarities and the plurality of second similarities, and determining the Chinese character combination with the highest weight calculation score as the Chinese character combination of the organization name. The invention also provides a device for identifying the characteristic information, electronic equipment and a computer readable storage medium. The invention can improve the accuracy of identifying the organization names in the voice information.)

技术领域

本发明涉及人工智能技术领域，尤其涉及一种特征信息的识别的方法、装置、电子设备及计算机可读存储介质。

背景技术

语音识别技术的应用已十分广泛，语音识别技术可以识别语音中的信息，将语音信息转化为文字。在很多应用场景中，需要识别语音中机构组织的名称，例如，用户通过电话办理企业对公业务时，识别语音信息中的组织机构的名称，将其转化为文字。

现有技术中，为了识别机构组织的名称，需要针对不同的场景去整理收集大量的语料，这将耗费大量时间，如果整理收集的数据存在错误，会导致机构组织的名称识别不准确；若不预先针对不同的场景去整理收集大量的语料，也会使得机构组织的名称识别结果不够准确。

发明内容

本发明提供一种特征信息的识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高识别语音信息中存在的机构组织名称的准确性。

为实现上述目的，本发明提供的一种特征信息的识别方法，包括：

接收通过语音识别得到的文本数据集，利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本；

汇总所述待识别文本的拼音对应的汉字组合，得到汉字组合候选集合，对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量；

获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算，得到包含所述至少两个行业类别的平均行业向量；

计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，得到第一层级汉字组合候选集合，所述第一层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第一相似度；

对所述行业类别集合进行簇类计算，得到行业类别簇集合，从所述行业类别簇集合中获取所述目标行业类别所属的目标簇类，以及计算所述目标簇类的平均簇类向量；

计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标簇类的平均簇类向量的第二相似度，得到第二层级汉字组合候选集合，所述第二层级汉字组合候选集合包含至少所述两个汉字组合和所述至少两个汉字组合分别对应的第二相似度；

将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集；

确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。

可选地，所述对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量，包括：

利用预先训练的字向量词典获取所述汉字组合候选集包含的至少两个汉字组合中每个汉字的字向量；

根据至少两个汉字组合中每个汉字的字向量，计算所述至少两个汉字组合中每个汉字组合包含的所有汉字的字向量的平均值，得到所述至少两个汉字组合的平均字向量。

可选地，所述获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，包括：

通过基于注意力机制的双向LSTM网络对所述文本数据集进行前向和后向编码，将前向和后向编码生成的向量拼接起来，形成拼接向量；

将所述拼接向量输入至预构建的第一行业分类模型，确定所述行业分类神经网络模型输出的行业类别为所述组织机构名称所属的目标行业类别；

利用预构建的第二行业分类模型对所述汉字组合候选集合进行分类，得到分类结果，所述分类结果包括所述汉字组合候选集合包含的汉字组合对应的行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

可选地，所述获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，包括：

获取补充汉字组合候选集合，所述补充汉字组合候选集合包含补充组织机构名称；

利用预构建的第三行业分类模型对所述组织机构名称进行分类，得到所述组织机构名称所属的目标行业类别；

利用所述第三行业分类模型对所述补充汉字组合候选集合进行分类，得到分类结果，所述分类结果包括所述补充汉字组合候选集合包含的补充组织机构名称对应的行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

可选地，所述计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，包括：

通过相似度计算函数计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，所述相似度计算函数为：

其中，sim(x_i,y_i)表示所述第一相似度，x_i表示汉字组合的平均字向量，y_i表示所述目标行业类别的平均行业向量，n表示所述平均字向量或所述平均行业向量的向量维度。

可选地，所述对所述行业类别集合进行簇类计算，得到行业类别簇集合，包括：

计算所述行业类别集合中任意两个行业类别之间的距离，将距离最小的两个行业类别合并，得到簇类；

循环计算未合并的行业类别中任意两个行业类别之间的距离，将距离最小的两个行业类别合并得到新的簇类，直到簇类的个数达到预设数量，确定得到的所有簇类组成行业类别簇集合。

可选地，所述将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集包括：

将所述第一层级汉字组合候选集合包含的多个第一相似度及所述第二层级汉字组合候选集合包含的多个第二相似度分别乘以相同或不同的权重，得到第一权重相似度集合和第二权重相似度集合；

将所述第一权重相似度集合包含的多个第一权重相似度和第二权重相似度集合包含的多个第二权重相似度分别对应相加，得到汉字组合得分结果集。

为了解决上述问题，本发明还提供一种特征信息的识别装置，所述装置包括：

文本识别模块，用于接收通过语音识别得到的文本数据集，利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本；

字向量计算模块，用于汇总所述待识别文本的拼音对应的汉字组合，得到汉字组合候选集合，对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量；

行业向量计算模块，用于获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算，得到包含所述至少两个行业类别的平均行业向量；

第一相似度计算模块，用于计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，得到第一层级汉字组合候选集合，所述第一层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第一相似度；

簇类向量计算模块，用于对所述行业类别集合进行簇类计算，得到行业类别簇集合，从所述行业类别簇集合中获取所述目标行业类别所属的目标簇类，以及计算所述目标簇类的平均簇类向量；

第二相似度计算模块，用于计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标簇类的平均簇类向量的第二相似度，得到第二层级汉字组合候选集合，所述第二层级汉字组合候选集合包含至少所述两个汉字组合和所述至少两个汉字组合分别对应的第二相似度；

权重计算模块，用于将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集；

确定模块，用于确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的特征信息的识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的特征信息的识别方法。

本发明实施例中，获取组织机构名称的待识别文本，计算待识别文本的拼音对应的汉字组合的平均字向量；获取组织机构名称所属的目标行业类别，以及获取目标行业类别所属的目标簇类；计算汉字组合中每个汉字组合的平均字向量与目标行业类别的平均行业向量的第一相似度；计算汉字组合中每个汉字组合的平均字向量与目标簇类的平均簇类向量的第二相似度，将多个第一相似度与多个第二相似度进行权重计算，确定权重计算得分最高的汉字组合为组织机构名称的汉字组合。能够从组织机构的多种可能的文字组合中选取最准确的文字组合，从而实现提高识别语音信息中存在的机构组织名称的准确性的目的。

附图说明

图1为本发明一实施例提供的特征信息的识别方法的流程示意图；

图2为本发明一实施例提供的特征信息的识别装置的模块示意图；

图3为本发明一实施例提供的实现特征信息的识别方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种特征信息的识别方法。参照图1所示，为本发明一实施例提供的特征信息的识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，特征信息的识别方法包括：

S1、接收通过语音识别得到的文本数据集，利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本。

详细地，所述文本数据集是通过语音识别技术将一段音频转换为文本所得到的文本集合。

例如，通过语音识别技术将新闻发布会时记者录音设备录下的发布会内容转换为文本内容，该文本内容就是文本数据集。

本实施例中，通过命名实体识别技术(Named Entity Recognition，简称NER)识别出文本中具有特定意义的实体(如，人名、地名、机构名、专有名词等)。

例如，利用命名实体识别技术对文本“小明在夏威夷度假，小王参观了迪士尼公司”进行识别，通过通过命名实体识别技术得到的识别结果为“小明——人名”、“夏威夷——地名”、“迪士尼公司——组织结构名”。

S2、汇总所述待识别文本的拼音对应的汉字组合，得到汉字组合候选集合，对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量。

本发明实施例中，根据待识别文本得到待识别文本的拼音。例如：待识别文本为“小乙公司”对应的拼音为“xiǎoyǐ gōngsī”。

详细地，所述汉字组合候选集合，是指待识别文本的拼音对应的不同汉字组合的集合。由于存在同音字，待识别文本的拼音可能对应不同的汉字组合，

例如，所述待识别文本为“小乙公司”，其对应的拼音为“xiǎoyǐ gōngsī”，而“xiǎoyǐgōngsī”对应的汉字组合由于同音存在不光是“小乙公司”，还有“小以公司”、“晓已公司”等多种汉字组合，将拼音“xiǎoyǐgōngsī”对应的所有所有汉字组合汇总，得到汉字组合候选集合。

本实施例中，将所有可能的汉字组合汇总在一起得到汉字组合候选集合，进而根据后续步骤，从汉字组合候选集合中选取最准确的组合，能够提高识别的准确率。

进一步地，在本发明一可选实施例中，所述对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量，包括：

利用预先训练的字向量词典获取所述汉字组合候选集包含的至少两个汉字组合中每个汉字的字向量；

较佳地，可以通过采用算数平均值的计算方法计算汉字组合包含的所有汉字的字向量的平均值。

进一步地，所述算术平均值的计算公式如下：

其中，a₁至a_n表示某一个汉字组合中每个汉字的字向量，n表示该汉字组合汉字的个数，W表示该汉字组合的平均字向量。

S3、获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算，得到包含所述至少两个行业类别的平均行业向量。

本实施例中，行业类别集合包含多个行业类别的类别名称，例如，行业类别中包含饮料、中药、银行、通信等类别名称。

一可选实施例中，所述行业类别可以为预设的。

一可选实施例中，组织机构名称所属的目标行业类别可以根据文本数据集包含的确定，例如，根据与文本数据集相关的上下文确定。

优选地，本发明实施例中，可以为包含所述目标行业类别的至少两个行业类别的每个行业类别构建一个矩阵WI，矩阵WI共有n行m列，每行由一个组织机构名称的汉字组合的平均字向量构成，n表示每个行业类别包含n个组织机构，m表示每个组织机构名称的汉字组合的平均字向量为m维。

本发明实施例中，还可以构造一个参数矩阵WO共m行k列，m表示每个组织机构名称的汉字组合的平均字向量为m维，k表示行业类别数量，利用产生截断正态分布随机数方法(如深度学习框架tensorflow里的函数truncated_normal)随机生成该矩阵的初始值。

进一步地，所述truncated_normal函数公式如下：

tf.truncated_normal(shape,mean＝0.0,stddev＝1.0,dtype＝tf.float32)

其中，shape表示生成矩阵的维度，mean是矩阵参数均值，stddev是矩阵参数的标准差，dtype表示矩阵参数的类型。

进一步地，计算矩阵WI与矩阵WO的乘积，得到新矩阵WN(n*k)。

定义矩阵WN(n*k)的每行为组织机构名称的汉字组合的新向量，计算该矩阵中所有组织机构名称的汉字组合的新向量的算术平均值，得到该行业的行业平均向量。

进一步地，在本发明另一实施例中，所述获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，包括：

通过基于注意力机制的双向LSTM网络对所述文本数据集进行前向和后向编码，将前向和后向编码生成的向量拼接起来，形成拼接向量；

将所述拼接向量输入至预构建的第一行业分类模型，确定所述行业分类神经网络模型输出的行业类别为所述组织机构名称所属的目标行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

在本实施例中，组织结构名称所属的目标行业类别根据文本数据集的内容确定，能够提高获取到的目标行业类别的准确性。

本实施例中，基于注意力机制的双向LSTM网络包括：输入层、嵌入层、LSTM层，注意力层，输出层。

本实施例中，将文本数据集在输入层输入，得到输入文本集，对所述输入文本集在嵌入层将文本转换成字向量，对所述字向量在LSTM层进行状态处理，得到状态点字向量的前向编码向量和后向编码向量；在注意力层中，对所述状态点利用深度学习中的Attention机制得到每个状态点权重，将所述权重分别乘以所述字向量的前向编码向量和所述字向量的后向编码向量，并在输出层输出两者的拼接向量。

本实施例中，第一行业分类模型可以为多层神经网络模型，该多层神经网络包括输入层，隐藏层，输出层。

进一步地，将拼接向量输多层神经网络的输入层，在多层神经网络的隐藏层利用神经元激活功能实现非线性功能，在所述多层神经网络的输出层输出行业类别，并确定该行业类别为组织机构名称所属的目标行业类别。

进一步地，在本发明另一实施例中，所述获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，包括：

获取补充汉字组合候选集合，所述补充汉字组合候选集合包含补充组织机构名称；

利用预构建的第三行业分类模型对所述组织机构名称进行分类，得到所述组织机构名称所属的目标行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

本实施例中，所述补充组织机构名称可以是已登记或注册的企事业单位的名称文本。例如：某市已注册的公司名称。

本实施例中，可以从某市政府数据开放平台获取目前该市已注册的公司名称集合，该集合就是补充汉字组合候选集合。

本实施例中，第三行业分类模型与第二行业分类模型可以是相同或不同的模型。

进一步地，本发明实施例中，按照国民经济行业分类表中的类别，训练利用神经网络模型构建的第三行业分类模型；通过训练得到的第三行业分类模型，对所述组织机构名称以及补充汉字组合候选集合包含的补充组织机构名称进行分类。

本发明实施例中第三行业分类模型的构建可采用机器学习(如决策树、随机森林等)或基于深度学习的方法(例如卷积神经网络、循环神经网络)进行构建。

例如，可使用补充汉字组合候选集合作为训练集，利用标注过行业类别的组织机构名称文本集作为标签集，构建基于包含卷积层、池化层、全连接层的卷积神经网络的第三行业分类模型，将所述训练集输入至第一层卷积层，所述第一层卷积层进行深度可分离卷积操作后得到卷积数据集输入至第一层池化层；

所述第一层池化层对所述卷积数据集进行最大化池化操作后得到降维数据集输入至第二层卷积层，所述第二层卷积层进行所述深度可分离卷积操作后输入至第二层池化层进行所述最大化池化操作，直到最终输入至全连接层；

所述全连接层结合激活函数计算得到所述训练值，并将所述训练值输入至预构建的损失函数，所述损失函数基于所述标签集和所述训练值计算得到损失值，利用梯度下降算法求解损失函数最小值，直至所述损失值达到所述最小值时，所述第三行业分类模型退出训练。

S4、计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，得到第一层级汉字组合候选集合，所述第一层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第一相似度。

详细地，所述相似度的计算方法有多种形式，如欧式距离法、余弦距离法等。

较佳地，所述计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，包括：

S5、对所述行业类别集合进行簇类计算，得到行业类别簇集合，从所述行业类别簇集合中获取所述目标行业类别所属的目标簇类，以及计算所述目标簇类的平均簇类向量。

在本实施例中，从行业类别簇集合中获取目标行业类别所属的目标簇类，计算目标簇类包含的所有行业平均向量的算术平均值，可以得到目标簇类的平均簇类向量。

详细地，在本发明一可选实施例中，所述对所述行业类别集合进行聚类计算，得到行业类别簇集合，包括：

计算所述行业类别集合中任意两个行业类别之间的距离，将距离最小的两个行业类别合并，得到簇类；

本发明实施例中，利用层次聚类算法初始将每个行业都看作是单独的簇类，然后利用将距离最近的两个簇类进行合并，该过程不断重复，直到达到预设的簇类个数。

本实施例中，两个簇类的距离为这两个簇类包含的距离最近的两个行业的平均行业向量的距离，公式如下：

其中，C1,C2表示两个簇类，DIST(C1,C2)表示C1,C2两个簇类的距离，P_i表示C1簇类包含的行业的平均行业向量，P_j表示C2簇类包含的行业的平均行业向量，dist(P_i，P_j)表示P_i和P_j的距离，该距离可用欧式距离公式计算。

S6、计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标簇类的平均簇类向量的第二相似度，得到第二层级汉字组合候选集合，所述第二层级汉字组合候选集合包含至少所述两个汉字组合和所述至少两个汉字组合分别对应的第二相似度。

详细地，所述相似度的计算方法有多种，如欧式距离法、余弦距离法等。较佳地，本发明可采用多维余弦相似度计算方法，所述多维余弦相似度计算方法如下所示：

其中，sim(x_i,z_i)表示第二相似度，x_i表示汉字组合平均字向量，z_i表示目标簇类的平均簇类向量，n表示汉字组合的平均字向量或目标簇类的平均簇类向量的向量维度。

S7、将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集。

本实施例中，将第一层级汉字组合候选集合包含的第一相似度与第二层级汉字组合候选集合包含的第二相似度进行权重计算，即为对至少两个汉字组合中各个汉字组合在第一层级汉字组合候选集合中的第一相似度与各个汉字组合对应的在所述第二层级汉字组合候选集合中第二相似度进行权重计算。

例如，A汉字组合在第一层级汉字组合候选集合中对应的第一相似度与A汉字组合在所述第二层级汉字组合候选集合对应的第二相似度进行权重计算，B汉字组合在第一层级汉字组合候选集合中对应的第一相似度与B汉字组合在所述第二层级汉字组合候选集合对应的第二相似度进行权重计算。

详细地，所述将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集包括：

将所述第一权重相似度集合包含的多个第一权重相似度和第二权重相似度集合包含的多个第二权重相似度分别对应相加，得到汉字组合得分结果集。

本实施例中，权重可以为预设的，且所有权重的和为1。

本实施例中，当将第一权重相似度集合包含的多个第一权重相似度和第二权重相似度集合包含的多个第二权重相似度分别对应相加时，是将第一权重相似度集合和第二权重相似度集合之中，同一汉字组合对应的第一权重相似度和第二权重相似度对应相加，从而得到多个同一汉字组合的得分结果。

例如，若A汉字组合在第一层级汉字组合候选集合中对应的第一相似度为p，B汉字组合在第一层级汉字组合候选集合中对应的第一相似度为m，且A汉字组合在所述第二层级汉字组合候选集合对应的第二相似度为q，B汉字组合在所述第二层级汉字组合候选集合对应的第二相似度为n；将第一相似度乘以权重a，第二相似度乘以权重b(其中，b＝1-a)，得到第一权重相似度集合包含ap和am，第二权重相似度集合包含bq和bn，汉字组合得分结果集包含ap+bq以及am+bn。

S8、确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。

在本实施例中，当确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合之后，可以判断步骤S1中提取到的待识别文本是否为该汉字组合，若是，则输出该组织机构名称的待识别文本，若否，则将待识别文本替换为该汉字组合并进行输出。

如图2所示，是本发明特征信息的识别装置的功能模块图。

本发明所述特征信息的识别装置100可以安装于电子设备中。根据实现的功能，所述特征信息的识别装置可以包括文本识别模块101、字向量计算模块模块102、行业向量计算模块103、第一相似度计算模块104、簇类向量计算模块105、第二相似度计算模块106、权重计算模块107及确定模块108。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

文本识别模块101，用于接收通过语音识别得到的文本数据集，利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本。

详细地，所述文本数据集是通过语音识别技术将一段音频转换为文本所得到的文本集合。

例如，通过语音识别技术将新闻发布会时记者录音设备录下的发布会内容转换为文本内容，该文本内容就是文本数据集。

本实施例中，通过命名实体识别技术(Named Entity Recognition，简称NER)识别出文本中具有特定意义的实体(如，人名、地名、机构名、专有名词等)。

字向量计算模块102，用于汇总所述待识别文本的拼音对应的汉字组合，得到汉字组合候选集合，对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量。

本发明实施例中，根据待识别文本得到待识别文本的拼音。例如：待识别文本为“小乙公司”对应的拼音为“xiǎoyǐgōngsī”。

详细地，所述汉字组合候选集合，是指待识别文本的拼音对应的不同汉字组合的集合。由于存在同音字，待识别文本的拼音可能对应不同的汉字组合，

本实施例中，将所有可能的汉字组合汇总在一起得到汉字组合候选集合，进而根据其他模块，从汉字组合候选集合中选取最准确的组合，能够提高识别的准确率。

进一步地，在本发明一可选实施例中，所述字向量计算模块对所述汉字组合候选集合中至少两个汉字组合进行向量计算，得到所述至少两个汉字组合的平均字向量，包括：

利用预先训练的字向量词典获取所述汉字组合候选集包含的至少两个汉字组合中每个汉字的字向量；

较佳地，可以通过采用算数平均值的计算方法计算汉字组合包含的所有汉字的字向量的平均值。

进一步地，所述算术平均值的计算公式如下：

其中，a₁至a_n表示某一个汉字组合中每个汉字的字向量，n表示该汉字组合汉字的个数，W表示该汉字组合的平均字向量。

行业向量计算模块103，用于获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，对所述行业类别集合中包含所述目标行业类别的至少两个行业类别进行向量计算，得到包含所述至少两个行业类别的平均行业向量。

本实施例中，行业类别集合包含多个行业类别的类别名称，例如，行业类别中包含饮料、中药、银行、通信等类别名称。

一可选实施例中，所述行业类别可以为预设的。

一可选实施例中，组织机构名称所属的目标行业类别可以根据文本数据集包含的确定，例如，根据与文本数据集相关的上下文确定。

进一步地，所述truncated_normal函数公式如下：

tf.truncated_normal(shape,mean＝0.0,stddev＝1.0,dtype＝tf.float32)

其中，shape表示生成矩阵的维度，mean是矩阵参数均值，stddev是矩阵参数的标准差，dtype表示矩阵参数的类型。

进一步地，计算矩阵WI与矩阵WO的乘积，得到新矩阵WN(n*k)。

进一步地，在本发明另一实施例中，所述行业向量计算模块获取所述组织机构名称所属的目标行业类别，以及获取包含所述目标行业类别的行业类别集合，包括：

通过基于注意力机制的双向LSTM网络对所述文本数据集进行前向和后向编码，将前向和后向编码生成的向量拼接起来，形成拼接向量；

将所述拼接向量输入至预构建的第一行业分类模型，确定所述行业分类神经网络模型输出的行业类别为所述组织机构名称所属的目标行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

在本实施例中，组织结构名称所属的目标行业类别根据文本数据集的内容确定，能够提高获取到的目标行业类别的准确性。

本实施例中，基于注意力机制的双向LSTM网络包括：输入层、嵌入层、LSTM层，注意力层，输出层。

本实施例中，第一行业分类模型可以为多层神经网络模型，该多层神经网络包括输入层，隐藏层，输出层。

获取补充汉字组合候选集合，所述补充汉字组合候选集合包含补充组织机构名称；

利用预构建的第三行业分类模型对所述组织机构名称进行分类，得到所述组织机构名称所属的目标行业类别；

将所述分类结果中不同行业类别与所述目标行业类别进行组合，得到包含所述目标行业类别的行业类别集合。

本实施例中，所述补充组织机构名称可以是已登记或注册的企事业单位的名称文本。例如：某市已注册的公司名称。

本实施例中，可以从某市政府数据开放平台获取目前该市已注册的公司名称集合，该集合就是补充汉字组合候选集合。

本实施例中，第三行业分类模型与第二行业分类模型可以是相同或不同的模型。

本发明实施例中第三行业分类模型的构建可采用机器学习(如决策树、随机森林等)或基于深度学习的方法(例如卷积神经网络、循环神经网络)进行构建。

第一相似度计算模块104，用于计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，得到第一层级汉字组合候选集合，所述第一层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第一相似度。

详细地，所述相似度的计算方法有多种形式，如欧式距离法、余弦距离法等。

较佳地，所述第一相似度计算模块计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标行业类别的平均行业向量的第一相似度，包括：

簇类向量计算模块105，用于对所述行业类别集合进行簇类计算，得到行业类别簇集合，从所述行业类别簇集合中获取所述目标行业类别所属的目标簇类，以及计算所述目标簇类的平均簇类向量。

详细地，在本发明一可选实施例中，所述簇类向量计算模块对所述行业类别集合进行聚类计算，得到行业类别簇集合，包括：

计算所述行业类别集合中任意两个行业类别之间的距离，将距离最小的两个行业类别合并，得到簇类；

本实施例中，两个簇类的距离为这两个簇类包含的距离最近的两个行业的平均行业向量的距离，公式如下：

第二相似度计算模块106，用于计算所述至少两个汉字组合中每个汉字组合的平均字向量与所述目标簇类的平均簇类向量的第二相似度，得到第二层级汉字组合候选集合，所述第二层级汉字组合候选集合包含所述至少两个汉字组合和所述至少两个汉字组合分别对应的第二相似度。

权重计算模块107，用于将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集。

详细地，所述权重计算模块107具体用于：

将所述第一权重相似度集合包含的多个第一权重相似度和第二权重相似度集合包含的多个第二权重相似度分别对应相加，得到汉字组合得分结果集。

本实施例中，权重可以为预设的，且所有权重的和为1。

确定模块108，用于确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。

在本实施例中，当确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合之后，可以判断文本识别模块101中提取到的待识别文本是否为该汉字组合，若是，则输出该组织机构名称的待识别文本，若否，则将待识别文本替换为该汉字组合并进行输出。

如图3所示，是本发明实现特征信息的识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如特征信息的识别的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如特征信息的识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的特征信息的识别程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

接收通过语音识别得到的文本数据集，利用命名实体识别技术从所述文本数据集中提取组织机构名称的待识别文本；

将所述第一层级汉字组合候选集合包含的第一相似度与所述第二层级汉字组合候选集合包含的第二相似度进行权重计算，得到汉字组合得分结果集；

确定所述汉字组合得分结果集中最高分对应的汉字组合为所述组织机构名称的汉字组合。

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

24页详细技术资料下载

特征信息的识别方法、装置及计算机可读存储介质

相关技术

网友询问留言