命名实体识别模型、电话总机转接分机方法及系统

文档序号:1170291 发布日期:2020-09-18 浏览:7次 >En<

阅读说明:本技术 命名实体识别模型、电话总机转接分机方法及系统 (Named entity recognition model, telephone exchange switching extension method and system ) 是由 沈燕 陈屹峰 戴蓓蓉 陆炜 王一腾 孙璐 于 2020-05-11 设计创作,主要内容包括:本发明公开了一种命名实体识别模型,其基于注意力机制的双向长短时记忆单元-条件随机场包括:嵌入层为本模型使用的预训练的词向量;双向LSTM层进行特征提取,每个词获得同时包含前向和后向信息表示;自注意层捕获句子内部词依赖关系;全连接层将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量;CRF层用于学习标签之间的依赖关系。本发明还公开了一种电话总机转接分机方法和一种电话总机转接分机系统。本发明的命名实体识别模型能快速准确的识别实体信息。本发明的电话总机转接方法/系统能够依据客户需求,准确、快速地为客户检索到欲联系的分机号并进行转接,支持为多客户同时提供分机转接服务,提供优质、高效的总机转接服务体验。(The invention discloses a named entity recognition model, which is based on a bidirectional long-short time memory unit of an attention mechanism-a conditional random field and comprises the following components: the embedded layer is a pre-trained word vector used by the model; the bidirectional LSTM layer performs feature extraction, and each word simultaneously comprises forward information representation and backward information representation; capturing word dependency relations in sentences from an attention layer; the fully connected layer maps the output of the bidirectional LSTM layer and the self-attention layer into a vector with one dimension being the number of output labels; the CRF layer is used to learn the dependencies between labels. The invention also discloses a telephone exchange switching extension method and a telephone exchange switching extension system. The named entity recognition model can quickly and accurately recognize entity information. The telephone exchange switching method/system can accurately and quickly retrieve the extension number to be contacted for the client and switch according to the client requirement, support the simultaneous provision of extension switching service for a plurality of clients and provide high-quality and high-efficiency exchange switching service experience.)

命名实体识别模型、电话总机转接分机方法及系统

技术领域

本发明涉及通信领域,特别是涉及一种基于注意力机制的双向长短时记忆单元-条件随机场的命名实体识别模型。本发明还涉及一种利用所述命名实体识别模型的电话总机转分机方法和一种电话总机转接分机系统。

背景技术

一般的企业公司电话都会有总机和分机,总机系统可使企业只对外公布一个电话号码,由该号码呼入后,根据企业自己设定的语音导航,将各业务转接到不同的分机来接听。或,当有人拨打总机查找分机号时,总机人员可将话务直接转给相应的分机人员。当拨打者不知道公司的分机号时,就会打总机进行查询,可直接告知分机号,让其重新拨打。这个过程中同一业务可能对应多个分机号(业务员),这会造成一种工况:当客户针对同一问题多次拨打客服电话时找不到欲联系人的分机号,一个事情可能要重述多遍,极大了影响了客户的体验。也造成浪费企业资源的浪费,降低了企业的工作效率。

发明内容

在发明内容部分中引入了一系列简化形式的概念,该简化形式的概念均为本领域现有技术简化,这将在

具体实施方式

部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

本发明要解决的技术问题是提供一种基于注意力机制的双向长短时记忆单元-条件随机场,能快速准确识别实体新型的命名实体识别模型。

本发明要解决的另一技术问题是提供一种利用所述命名实体识别模型能快速准确搜索分机并完成转接的电话总机转接分机方法。

本发明要解决的再一技术问题是提供一种利用所述命名实体识别模型能快速准确搜索分机并完成转接的电话总机转接分机系统。

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。命名实体识别其本质是一个序列标注问题,序列标注就是对给定文本中每一个字符打上标签。

为解决上述技术问题,本发明提供一种基于注意力机制的双向长短时记忆单元-条件随机场(Attention-Based BiLSTM-CRF)的命名实体识别模型,包括:

嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;

双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;使用双向LSTM进行特征提取,对于每个词获得同时包含前向和后向信息的表示。双向LSTM可以看成是两层神经网络,第一层则是从右边作为系列的起始输入,在文本处理上可以理解成从句子的最后一个词语作为输入,在每一个时间步i输出为bhi,而第二层从左边作为系列的起始输入,在文本处理上可以理解成从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联:

Figure BDA0002486225060000021

hi=[fhi,bhi];

自注意层,其适用于捕获句子内部的词依赖关系;

双向LSTM虽然能获取前向和后向信息,也具有比RNN更长的距离依赖,但当句子序列较长时,LSTM也无法通过多层之后还能将距离较远的信息很好的保留下来。本发明引入自注意(Self-Attention)机制以捕获句子内部的词依赖关系,在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci,如下

全连接层,将双向LSTM层和自注意层的输出使用全连接层映射为一个维度为输出标签数量的一个向量,该向量是当前时间步i对于所有标签的预测得分:

pi=Wi([hi,ci])+bi

其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分;

CRF层,包括两种类型的分数,发射分数和转移分数。发射分数为每个词映射到标签的概率值,即全连接层的输出,设双向LSTM层的输出矩阵为P,其中pij代表词xi映射到标签tagj,tagj表示所有标签中第j个,j取值范围为0到标签数-1,的非归一化概率,类比于CRF模型中的发射概率矩阵;转移分数为tagi标签转移到tagj标签的转移概率,设转移矩阵为A,Aij代表tagi转移到tagj的转移概率。对于输入序列X对应的所有可能的输出标签序列y,定义分数为:

Figure BDA0002486225060000031

目标是学习出一组条件概率分布模型,即找到一组参数θ,使得训练数据中真实标签序列的概率最大化:

Figure BDA0002486225060000032

Figure BDA0002486225060000033

其中,S为对计算出的所有可能的输出标签序列y的评分score的归一化,y'为每一种可能的标签序列,θ*则为使得真实标签序列的概率最大化的一组参数;

预测时则计算得分最高的标签序列y*

其中,y'为每一种可能的标签序列。

可选择的,采用以下步骤进行命名实体识别模型训练;

S1,数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;

可选择的,去除指定无用符号:输入文本中多余的空格以及其他无意义的符号对于模型是无用的,我们预先使用正则表达式进行去除;

可选择的,文本分词:jieba分词,使用jieba分词库对文本进行分词,将输入文本处理成单词序列。分词过程中,对于可能会出现的一些领域的专有词汇或者不希望jieba拆分的单词,建立一个自定义词典,在使用jieba分词时保留词典中的固定词语;

可选择的,去除指定停用词:分词生成的单词序列中,会有很多没有意义的词,如“了”、“呢”等,我们称之为停用词,当然,也可以自定义一些对于模型没有意义的单词作为停用词,建立停用词词典,在分词后去除这些停用词;

可选择的,构造词典:统计训练数据分词结果,构造词典;

S2,输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;

S3,模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果;

可选择的,设置模型参数:词嵌入维度:300维;LSTM参数:隐层状态数128(即LSTM层输出的每一个单词对应的维度),层数1;全连接层输出维度:文本序列长度*标签数;

可选择的,所述模型的实体信息包括部门名和人名,具有5类标签;

其中,所述标签为:人名的开始部分、人名的中间部分、部门名的开始部分、部门名的中间部分和非实体信息。

可选择的,标签如下:

B-Person人名的开始部分

I-Person人名的中间部分

B-Depart部门名的开始部分

I-Depart部门名的中间部分

O非实体信息。

例如“帮我转接信息部李红”,分词后为“帮我转接信息部李红”,经过命名实体识别模型标注之后的输出为“O O O B-Depart B-Person”。模型需要提取的部门名和人名分别为“信息部”、“李红”。

可选择的,CRF层能加入约束条件提高预测结果准确率,所述约束条件在训练数据时被CRF层自动学习得到。可能的约束条件有:

1)句子的开头应该是“B-”或“O”,而不是“I-”;

2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种实体类别,比如,“B-Person I-Person”是正确的,而“B-Person I-Hospital”则是错误的;

3)“O I-label”是错误的,命名实体的开头应该是“B-”而不是“I-”

本发明提供一种利用所述命名实体识别模型的电话总机转接分机方法,包括以下步骤:

S4,语音信息转文本;

可选择的,利用现有智能语音交互平台实现语音信息转化为文本信息,例如阿里云智能语音交互平台;

S5,基于命名实体识别模型提取文本中的实体信息;

可选择的,采用以下子步骤对完成训练命名实体识别模型提取实体信息(部门名、人名信息);

S5.1,加载训练生成的模型文件,包括词典、标签以及训练模型;

S5.2,将客户的文本信息进行数据处理,生成单词索引序列;其中,数据处理具体步骤与模型训练部分相似,只需将构造词典替换为加载特征词典文件即可;

S5.3,生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的实体信息(部门名、人名信息)。

S6,基于相似度分析检索分机号;

可选择的,采用以下子步骤对完成基于相似度分析检索分机号;

S6.1,读取数据库中所有部门名;

S6.2,计算提取到的部门名与数据库中所有部门名的相似度,部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和;

Figure BDA0002486225060000062

Figure BDA0002486225060000064

其中,部门名与数据库中所有部门名的相似度为sim(pred,all_departi),all_departi为数据库中的部门名,权重α、β、γ依据多次实验进行经验设定,与数据库中第i个部门名计算相似度时,为两者的语义相似度,

Figure BDA0002486225060000066

为两者的汉字相似度,而

Figure BDA0002486225060000067

为两者的拼音相似度。EditDistance为编辑距离算法,该算法将两个字符串的相似度问题,归结为将其中一个字符串转化成另一个字符串所要付出的代价。转化的代价越高,说明两个字符串的相似度越低。计算汉字相似度和拼音相似度时设置触发词机制,即当提取的部门名可以直接在数据库中匹配到时,直接将该部门名的汉字相似度及拼音相似度设定为最高值1。

可选择的,对提取的部门名与数据库中所有部门名的相似度sim(pred,all_departi)进行排序,选出前3个相似度最高的真实的(数据库中的)部门名。

S6.3,计算提取到的人名与选择的部门下所有人名的相似度;

人名相似度不包括语义相似度,仅由汉字相似度和拼音相似度两部分构成。计算相似度时设置触发词机制,即当提取的人名可以直接在数据库中匹配到时,直接将该人名的汉字相似度及拼音相似度设定为最高值1。

对步骤6.2选择的每个部门名下所有人名相似度排序,选择3个相似度最高的人名。

S6.4,计算部门名和人名的整体相似度,选择整体相似度最高的部门名和人名;

计算部门名和人名的整体相似度=部门名的相似度+人名的相似度;

共选择出3*3=9个部门名称和人名的搭配,整体相似度的计算如下:

simi=sim(depart,all_departi)+sim(name,all_departi_namej);

即对于步骤6.2选择的每个部门名all_departi,计算步骤6.2得到的部门名相似度和步骤6.3得到的该部门下人名的相似度sim(name,all_departi_namej)之和simi。最终选择整体相似度最高的部门名和人名。

S6.5,返回分机号或转至预设话术。

S7,选择相似度最高执行转接。

S7.1,设定整体相似度阈值,若计算的整体相似度大于等于整体相似度阈值,则返回该人的分机号给系统;

若计算的整体相似度小于整体相似度阈值,则使用预设的话术引导客户重新说出欲联系人的信息,并跳返回执行语音信息转文本;

可选择的,S7.2,若返回执行语音信息转文本次数大于转接阈值,则转接人工。转接阈值可根据实际情况选择设定,例如,3次以上。

本发明提供一种利用所述命名实体识别模型的电话总机转接分机系统,包括:

语音识别模块,其用于将用户语音信息转文本;

信息提取模块,其基于命名实体识别模型提取文本中的实体信息;

分机检索模块,其基于相似度分析检索分机号;

分机转接模块,其用于选择相似度最高执行转接。

可选择的,信息提取模块将命名实体识别模型的双向LSTM层将每个词获得同时包含前向和后向信息的表示如下:

双向LSTM是两层神经网络,第一层是从右边作为系列的起始输入,表示从句子的最后一个词语作为输入,在每一个时间步i输出为bhi

第二层从左边作为系列的起始输入,

Figure BDA0002486225060000072

表示从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联hi为:

Figure BDA0002486225060000073

hi=[fhi,bhi]。

可选择的,信息提取模块对命名实体识别模型的自注意层采用以下方式捕获句子内部的词依赖关系;

在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci

Figure BDA0002486225060000083

可选择的,信息提取模块定义命名实体识别模型的全连接层输出向量是当前时间步i对于所有标签的预测得分;

pi=Wi([hi,ci])+bi

其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分。

可选择的,信息提取模块能对实体识别模型的CRF层能加入约束条件提高预测结果准确率,所述约束条件能通过训练数据时被CRF层自动学习得到。

可选择的,信息提取模块能采用以下方式对实体识别模型进行模型训练;

数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;

输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;

模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果。

可选择的,信息提取模块提取实体识别模型的实体信息包括部门名和人名,具有5类标签;

其中,所述标签为:人名的开始部分、人名的中间部分、部门名的开始部分、部门名的中间部分和非实体信息。

可选择的,信息提取模块采用以下方式对完成训练命名实体识别模型提取部门名、人名信息;

加载训练生成的模型文件;

将客户的文本信息进行数据处理,生成单词索引序列;

生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的部门名、人名信息。

可选择的,分机检索模块采用以下方式完成分机检索;

读取数据库中所有部门名;

计算提取到的部门名与数据库中所有部门名的相似度,部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和;

计算提取到的人名与选择的部门下所有人名的相似度;

计算部门名和人名的整体相似度,选择整体相似度最高的部门名和人名;

计算部门名和人名的整体相似度=部门名的相似度+人名的相似度;

返回分机号或转至预设话术。

可选择的,分机转接模块采用以下方式执行分机转接;

设定整体相似度阈值,若计算的整体相似度大于等于整体相似度阈值,则返回该人的分机号给系统;

若计算的整体相似度小于整体相似度阈值,则使用预设的话术引导客户重新说出欲联系人的信息,并跳返回执行语音信息转文本;

若返回执行语音信息转文本次数大于转接阈值,则转接人工。

本发明的电话总机转接方法/系统,实时将客户的语音信息转化为文本,使用命名实体识别技术提取文本中的实体信息如人名、部门名等。命名实体识别技术是把连续序列中每个词赋予相应的语义类别标签从而识别出实体信息,为提高命名实体识别技术的准确率,本发明提供了一种基于注意力机制的双向长短时记忆单元-条件随机场(Attention-Based BiLSTM-CRF)的命名实体识别模型。由于存在方言、电话通路音质差、语音转文本误差等问题,提取的信息可能不够精确,例如提取到“胡建”,实际上应该是“福建”,若直接使用“胡建”在数据库中检索是无法检索到的,并且无论经过多少轮次,只要客户说的是“胡建”,就无法完成分机的转接,系统灵活性差,影响客户体验。因此本发明采用基于相似度分析检索分机号,计算提取信息与数据库中相应信息的相似度,选择最优匹配,查询其分机号并进行自动转接。

采用本发明的技术方案,可实时将接收的客户语音信息转化为文本信息,从文本信息中提取部门名和人名,根据提取的部门名和人名检索分机号并为客户转接,避免了客户无法联系到欲联系人,针对同一问题反复陈述,过程繁杂、效率低下的问题。本发明能够依据客户需求,准确、快速地为客户检索到欲联系人的分机号并进行转接,支持为多客户同时提供分机转接服务,随打随通,灵活性强,结合人工总机客服的辅助,为客户提供优质、高效的总机转接服务体验。

本发明采用基于注意力机制的双向长短时记忆单元-条件随机场的命名实体识别模型,双向长短时记忆单元(BiLSTM)能够提取的前向、后向信息,又引入自注意(Self-Attention)机制实现对长距离单词依赖关系的捕获,模型语义理解能力更强,条件随机场(CRF)层学习标签之间的依赖关系对标签序列加以限制,模型对实体的识别准确率也更高。此外,本发明基于相似度分析检索分机号,允许存在一定的方言、电话通路音质差、语音转文本误差的问题,灵活性强、准确率高。

附图说明

本发明附图旨在示出根据本发明的特定示例性实施例中所使用的方法、结构和/或材料的一般特性,对说明书中的描述进行补充。然而,本发明附图是未按比例绘制的示意图,因而可能未能够准确反映任何所给出的实施例的精确结构或性能特点,本发明附图不应当被解释为限定或限制由根据本发明的示例性实施例所涵盖的数值或属性的范围。下面结合附图与具体实施方式对本发明作进一步详细的说明:

图1是本发明命名实体识别模型结构示意图。

图2本发明命名实体识别模型训练流程示意图。

图3是本发明电话总机转接分机方法流程示意图。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容充分地了解本发明的其他优点与技术效果。本发明还可以通过不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点加以应用,在没有背离发明总的设计思路下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。本发明下述示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的具体实施例。应当理解的是,提供这些实施例是为了使得本发明的公开彻底且完整,并且将这些示例性具体实施例的技术方案充分传达给本领域技术人员。

第一实施例,本发明提供一种基于注意力机制的双向长短时记忆单元-条件随机场(Attention-Based BiLSTM-CRF)的命名实体识别模型,所述模型的实体信息包括部门名和人名,具有5类标签;

其中,所述标签为:人名的开始部分、人名的中间部分、部门名的开始部分、部门名的中间部分和非实体信息,标签如下:

B-Person人名的开始部分

I-Person人名的中间部分

B-Depart部门名的开始部分

I-Depart部门名的中间部分

O非实体信息。

例如“帮我转接信息部李红”,分词后为“帮我转接信息部李红”,经过命名实体识别模型标注之后的输出为“O O O B-Depart B-Person”。模型需要提取的部门名和人名分别为“信息部”、“李红”。

如图1所示,该命名实体识别模型包括:

嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;

双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;使用双向LSTM进行特征提取,对于每个词获得同时包含前向和后向信息的表示。双向LSTM可以看成是两层神经网络,第一层则是从右边作为系列的起始输入,在文本处理上可以理解成从句子的最后一个词语作为输入,在每一个时间步i输出为bhi,而第二层从左边作为系列的起始输入,在文本处理上可以理解成从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联:

Figure BDA0002486225060000121

Figure BDA0002486225060000122

hi=[fhi,bhi];

自注意层,其适用于捕获句子内部的词依赖关系;

双向LSTM虽然能获取前向和后向信息,也具有比RNN更长的距离依赖,但当句子序列较长时,LSTM也无法通过多层之后还能将距离较远的信息很好的保留下来。本发明引入自注意(Self-Attention)机制以捕获句子内部的词依赖关系,在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci,如下

全连接层,将双向LSTM层和自注意层的输出使用全连接层映射为一个维度为输出标签数量的一个向量,该向量是当前时间步i对于所有标签的预测得分:;

pi=Wi([hi,ci])+bi

其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分;

CRF层,包括两种类型的分数,发射分数和转移分数。发射分数为每个词映射到标签的概率值,即全连接层的输出,设双向LSTM层的输出矩阵为P,其中pij代表词xi映射到tagj,tagj表示所有标签中第j个,j取值范围为0到标签数-1,的非归一化概率,类比于CRF模型中的发射概率矩阵;转移分数为tagi标签转移到tagj标签的转移概率,设转移矩阵为A,Aij代表tagi转移到tagj的转移概率。对于输入序列X对应的输出标签序列y,定义分数为:

Figure BDA0002486225060000131

目标是学习出一组条件概率分布模型,即找到一组参数θ,使得训练数据中真实标签序列的概率最大化:

Figure BDA0002486225060000132

Figure BDA0002486225060000133

其中,S为对计算出的所有可能的输出标签序列y的评分score的归一化,y'为每一种可能的标签序列,θ*则为使得真实标签序列的概率最大化的一组参数;

预测时则计算得分最高的标签序列y*

其中,y'为每一种可能的标签序列。

第二实施例,在上述第一实施例上进一步改进,增加对命名实体识别模型进行训练的步骤,与上述第一实施例相同的部分不再赘述;如图2所示,采用以下步骤进行命名实体识别模型训练;

S1,数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;去除指定无用符号:输入文本中多余的空格以及其他无意义的符号对于模型是无用的,我们预先使用正则表达式进行去除;

文本分词:jieba分词,使用jieba分词库对文本进行分词,将输入文本处理成单词序列。分词过程中,对于可能会出现的一些领域的专有词汇或者不希望jieba拆分的单词,建立一个自定义词典,在使用jieba分词时保留词典中的固定词语;

去除指定停用词:分词生成的单词序列中,会有很多没有意义的词,如“了”、“呢”等,我们称之为停用词,当然,也可以自定义一些对于模型没有意义的单词作为停用词,建立停用词词典,在分词后去除这些停用词;

构造词典:统计训练数据分词结果,构造词典;

S2,输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;

S3,模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果;

设置模型参数:词嵌入维度:300维;LSTM参数:隐层状态数128,层数1;全连接层输出维度:文本序列长度*标签数;

进一步改进第二实施例,CRF层能加入约束条件提高预测结果准确率,所述约束条件在训练数据时被CRF层自动学习得到。可能的约束条件有:

1)句子的开头应该是“B-”或“O”,而不是“I-”;

2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种实体类别,比如,“B-Person I-Person”是正确的,而“B-Person I-Hospital”则是错误的;

3)“O I-label”是错误的,命名实体的开头应该是“B-”而不是“I-”

第三实施例,本发明提供一种第一或第二实施例命名实体识别模型的方法,包括以下步骤:

S4,语音信息转文本,利用现有智能语音交互平台实现语音信息转化为文本信息,例如阿里云智能语音交互平台;

S5,基于命名实体识别模型提取文本中的实体信息,包括以下子步骤;

S5.1,加载训练生成的模型文件,包括词典、标签以及训练模型;

S5.2,将客户的文本信息进行数据处理,生成单词索引序列;其中,数据处理具体步骤与模型训练部分相似,只需将构造词典替换为加载特征词典文件即可;

S5.3,生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的实体信息(部门名、人名信息)。

S6,基于相似度分析检索分机号,包括以下子步骤;

S6.1,读取数据库中所有部门名;

S6.2,计算提取到的部门名与数据库中所有部门名的相似度,部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和;

其中部门名与数据库中所有部门名的相似度为sim(pred,all_departi),all_departi为数据库中的部门名,权重α、β、γ依据多次实验进行经验设定,与数据库中第i个部门名计算相似度时,

Figure BDA0002486225060000155

为两者的语义相似度,为两者的汉字相似度,而

Figure BDA0002486225060000157

为两者的拼音相似度。EditDistance为编辑距离算法,该算法将两个字符串的相似度问题,归结为将其中一个字符串转化成另一个字符串所要付出的代价。转化的代价越高,说明两个字符串的相似度越低。计算汉字相似度和拼音相似度时设置触发词机制,即当提取的部门名可以直接在数据库中匹配到时,直接将该部门名的汉字相似度及拼音相似度设定为最高值1。

对提取的部门名与数据库中所有部门名的相似度sim(pred,all_departi)进行排序,选出前3个相似度最高的真实的(数据库中的)部门名。

S6.3,计算提取到的人名与选择的部门下所有人名的相似度;

人名相似度不包括语义相似度,仅由汉字相似度和拼音相似度两部分构成。计算相似度时设置触发词机制,即当提取的人名可以直接在数据库中匹配到时,直接将该人名的汉字相似度及拼音相似度设定为最高值1。

对步骤6.2选择的每个部门名下所有人名相似度排序,选择3个相似度最高的人名。

S6.4,计算部门名和人名的整体相似度,选择整体相似度最高的部门名和人名;

计算部门名和人名的整体相似度=部门名的相似度+人名的相似度;

共选择出3*3=9个部门名称和人名的搭配,整体相似度的计算如下:

simi=sim(depart,all_departi)+sim(name,all_departi_namej);

即对于步骤6.2选择的每个部门名all_departi,计算步骤6.2得到的部门名相似度和步骤6.3得到的该部门下人名的相似度sim(name,all_departi_namej)之和simi。最终选择整体相似度最高的部门名和人名。

S6.5,返回分机号或转至预设话术。

S7,选择相似度最高执行转接。

S7.1,设定整体相似度阈值,若计算的整体相似度大于等于整体相似度阈值,则返回该人的分机号给系统;

若计算的整体相似度小于整体相似度阈值,则则使用预设的话术引导客户重新说出欲联系人的信息,并跳返回执行语音信息转文本;

S7.2,若返回执行语音信息转文本次数大于转接阈值,则转接人工。

第四实施例,本发明提供一种利用所述命名实体识别模型的电话总机转接分机系统,包括:

语音识别模块,其用于将用户语音信息转文本;

信息提取模块将命名实体识别模型的双向LSTM层将每个词获得同时包含前向和后向信息的表示如下:

双向LSTM是两层神经网络,第一层是从右边作为系列的起始输入,表示从句子的最后一个词语作为输入,在每一个时间步i输出为bhi;

第二层从左边作为系列的起始输入,

Figure BDA0002486225060000162

表示从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联hi为:

hi=[fhi,bhi]。

信息提取模块对命名实体识别模型的自注意层采用以下方式捕获句子内部的词依赖关系;

在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci

Figure BDA0002486225060000174

信息提取模块定义命名实体识别模型的全连接层输出向量是当前时间步i对于所有标签的预测得分;

pi=Wi([hici])+bi

其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分。

分机检索模块,采用以下方式完成分机检索;

读取数据库中所有部门名;

计算提取到的部门名与数据库中所有部门名的相似度,部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和;

计算提取到的人名与选择的部门下所有人名的相似度;

计算部门名和人名的整体相似度,选择整体相似度最高的部门名和人名;

计算部门名和人名的整体相似度=部门名的相似度+人名的相似度;

返回分机号或转至预设话术。

分机转接模块,采用以下方式执行分机转接;

设定整体相似度阈值,若计算的整体相似度大于等于整体相似度阈值,则返回该人的分机号给系统;

若计算的整体相似度小于整体相似度阈值,则使用预设的话术引导客户重新说出欲联系人的信息,并跳返回执行语音信息转文本;

若返回执行语音信息转文本次数大于转接阈值,则转接人工。

第五实施例,在上述第四实施例上进一步改进,与上述第四实施例相同的部分不再赘述;信息提取模块能对实体识别模型的CRF层能加入约束条件提高预测结果准确率,所述约束条件能通过训练数据时被CRF层自动学习得到,所述约束条件在训练数据时被CRF层自动学习得到。可能的约束条件有:

1)句子的开头应该是“B-”或“O”,而不是“I-”;

2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种实体类别,比如,“B-Person I-Person”是正确的,而“B-Person I-Hospital”则是错误的;

3)“O I-label”是错误的,命名实体的开头应该是“B-”而不是“I-”

信息提取模块能采用以下方式对实体识别模型进行模型训练;

数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;

输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;

模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果。

信息提取模块提取实体识别模型的实体信息包括部门名和人名,具有5类标签;

其中,所述标签为:人名的开始部分、人名的中间部分、部门名的开始部分、部门名的中间部分和非实体信息。

信息提取模块采用以下方式对完成训练命名实体识别模型提取部门名、人名信息;

加载训练生成的模型文件;

将客户的文本信息进行数据处理,生成单词索引序列;

生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的部门名、人名信息。

除非另有定义,否则这里所使用的全部术语(包括技术术语和科学术语)都具有与本发明所属领域的普通技术人员通常理解的意思相同的意思。还将理解的是,除非这里明确定义,否则诸如在通用字典中定义的术语这类术语应当被解释为具有与它们在相关领域语境中的意思相一致的意思,而不以理想的或过于正式的含义加以解释。

以上通过具体实施方式和实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:特征信息的识别方法、装置及计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!