基于深度学习的自动提取商家信息的方法

文档序号:1073213 发布日期:2020-10-16 浏览:23次 >En<

阅读说明:本技术 基于深度学习的自动提取商家信息的方法 (Deep learning-based method for automatically extracting merchant information ) 是由 黄诗雅 罗睦军 张志青 于 2020-06-03 设计创作,主要内容包括:本发明公开了一种基于深度学习的自动提取商家信息的方法,包括:获取商家文本,提取商家特征,生成商家信息文本数据集;对提取结果进行复核和修正;对人工修正结果进行降噪处理,根据提取的商家特征对商家文本进行标注,完成商家信息文本数据集的构建;对训练语料的字映射成索引表示,构建字-索引映射表和标签-索引映射表,从预训练的字向量模型中读取出字向量,作为初始化值输入到字向量模型中,通过映射表把商家文本与实体标签数值化为索引表示并填充为定长,提交给序列标注模型训练;序列标注模型对待测试的商家文本进行预测标注,找出商家文本中存在的实体信息。本发明减少人工逐一标注的人力、减少时间成本、高效率、自动化、准确性高。(The invention discloses a deep learning-based method for automatically extracting merchant information, which comprises the following steps: acquiring a merchant text, extracting merchant characteristics and generating a merchant information text data set; rechecking and correcting the extraction result; denoising the manual correction result, labeling the merchant text according to the extracted merchant characteristics, and completing construction of a merchant information text data set; mapping words of a training corpus into index representation, constructing a word-index mapping table and a label-index mapping table, reading word vectors from a pre-trained word vector model, inputting the word vectors into the word vector model as initialization values, quantizing merchant texts and entity labels into index representation through the mapping table, filling the index representation into fixed length, and submitting the index representation to a sequence labeling model for training; and the sequence labeling model carries out prediction labeling on the merchant text to be tested, and entity information existing in the merchant text is found out. The invention reduces manpower marked one by manpower, time cost, high efficiency, automation and high accuracy.)

基于深度学习的自动提取商家信息的方法

技术领域

本发明涉及电信通讯领域,特别涉及一种基于深度学习的自动提取商家信息的方法。

背景技术

在通话内容中用户提出需要某公司具体信息时,如详细地址信息、公司电话号码,由于用户说出公司名字很大程度上存在缺失状态,仅说简称、省略公司开头地址信息状态、记不清公司全名等,系统无法直接捕获公司名称,而无法有效反馈信息。但在通话内容中,用户会使用大量特征词去补充说明公司内容。利用补充的特征词信息,可以让系统更加有效判断公司名称。

现存难点在于客服热线中商家信息没有补充说明的特征词,需要人工去对商家名称进行特征。如果电信运营商需要对商家名称标注,就需要耗费大量的人力对成百上千万的商家名称进行标注,后续商家名称更改的话,还需要及时维护修改。靠人工逐条标注商家特征词准确度很高,但也会耗费大量人力和时间。主要原因有两点,一方面是一个城市商家就有上万个情况,即商家过多;另一方面是随着时间变化,会出现新增商家、商家名变更等情况。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种减少人工逐一标注的人力、减少时间成本、高效率、自动化、准确性高的基于深度学习的自动提取商家信息的方法。

本发明解决其技术问题所采用的技术方案是:构造一种基于深度学习的自动提取商家信息的方法,包括如下步骤:

A)获取商家文本后,通过特征规则提取商家特征,生成商家信息文本数据集;

B)通过人工抽样方法,对反馈的提取结果进行复核和修正;

C)对人工修正结果进行降噪处理,剔除标记错误数据,根据提取的商家特征对原有商家文本进行标注实体,非实体标注other,完成所述商家信息文本数据集的构建;

D)对训练语料的字映射成索引表示,构建字-索引映射表,对语种标签构建标签-索引映射表,从预训练的字向量模型中读取出字向量,作为初始化值输入到所述字向量模型中,通过字-索引映射表和标签-索引映射表把商家文本与实体标签数值化为索引表示并填充为定长,提交给序列标注模型训练;

E)所述序列标注模型对待测试的商家文本进行预测标注,找出所述商家文本中存在的实体信息。

在本发明所述的基于深度学习的自动提取商家信息的方法中,所述通过特征规则提取商家特征包括如下步骤:

A1)构建需剔除的单词字典;

A2)对每条商家名称进行条件判断,商家名称开头存在字典内容需要过滤,商家名称下半段存在字典内容,则跳过所述字典内容中的词提取以及词后面内容,商家名称存在括号里的文本,则直接跳过括号内容;

A3)按长度进行矫正特征提取内容。

在本发明所述的基于深度学习的自动提取商家信息的方法中,所述步骤A3)具体为:如果商家文本短于3,则直接提取做特征词;如果商家文本长于15,特征词最大提取6位,公司类型最多两位。

在本发明所述的基于深度学习的自动提取商家信息的方法中,所述降噪处理为:采用条件匹配方法,将人工修复标注特征与商家全名进行匹配,采用BIO标注体系,对商家全名标注特征词及其他词标签,如果无法匹配到商家全名,则跳过该条商家文本。

在本发明所述的基于深度学习的自动提取商家信息的方法中,所述序列标注模型生成的步骤进一步包括:

D1)将训练语料读入内存,通过计算每个字在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的字,然后对剩余不重复字映射成索引表示,加上填充字符、未知字符和数字字符构成字-索引映射表,对标签构建标签-索引映射表;

D2)全部商家文本存储为列表形式,设置过滤最小字频与最高字频、上下文选取窗口大小,采用word2vec模型训练商家文本,得到字向量模型,从所述字向量模型中读取字-索引映射表相对应的字向量,作为所述字向量模型模型的初始值;

D3)通过所述字-索引映射表把每个文档单词数值化,对每个文档长度不一致情况进行定长处理,长度长于最高阈值进行截取,短于最低阈值采用<PAD>扩充,对标签采用同样的方法进行数值化,并把所述标签-索引映射表及词向量保存到配置文件中。

在本发明所述的基于深度学习的自动提取商家信息的方法中,所述预测标注位是基于BILSTM-CRF实现的。

在本发明所述的基于深度学习的自动提取商家信息的方法中,基于word2vec模型获得词向量,所述word2vec模型由输入层、隐藏层和输出层构成。

在本发明所述的基于深度学习的自动提取商家信息的方法中,通过BILstm-CRF序列模型对商家文本进行预测,BILstm-CRF方法把商家文本转化为定长的文本序列后,放入BILstm-CRF网络结构中训练。

实施本发明的基于深度学习的自动提取商家信息的方法,具有以下有益效果:由于获取电信运营商商家信息文本后,基于特征词规则进行标识商家特征,通过人工复核及修复标识有误的文本,转化为序列标注文本规定形式,完成训练语料的制作;接着采用深度学习对语料进行模型搭建、训练,最终通过训练好的模型对更多商家名称提取特征信息及商家类别;本发明减少人工逐一标注的人力、减少时间成本、高效率、自动化、准确性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的自动提取商家信息的方法一个实施例中的流程图;

图2为所述实施例中基于深度学习的自动提取商家信息的方法的流程框图;

图3为所述实施例中通过特征规则提取商家特征的具体流程图;

图4为所述实施例中序列标注模型生成的具体流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明基于深度学习的自动提取商家信息的方法实施例中,其基于深度学习的自动提取商家信息的方法的流程图如图1所示。图2为本实施例中基于深度学习的自动提取商家信息的方法的流程框图。图1中,该基于深度学习的自动提取商家信息的方法包括如下步骤:

步骤S01获取商家文本后,通过特征规则提取商家特征,生成商家信息文本数据集:本步骤中,特征规则提取系统通过FTP下载商家文本文件,获取商家文本后,通过特征规则提取商家特征,生成商家信息文本数据集。

步骤S02通过人工抽样方法,对反馈的提取结果进行复核和修正:本步骤中,通过人工抽样方法,对反馈的提取结果进行复核和修正。

步骤S03对人工修正结果进行降噪处理,剔除标记错误数据,根据提取的商家特征对原有商家文本进行标注实体,非实体标注other,完成商家信息文本数据集的构建:本步骤中,对人工修正结果进行降噪处理,剔除标记错误数据,然后根据提取的商家特征对原有商家文本进行标注实体,非实体标注other,从而完成商家信息文本数据集的构建。具体而言,特征规则提取系统读取商家文本文件后,先过滤掉地址、特殊机构信息、包含括号内容等噪音信息。过滤后的文本,根据特征规律,如“有限公司”等公司类型特征词情况,分别提取公司类型及特征。特征规则提取系统的业务人员对每个商家文本进行抽样检查,根据商家文本真实特征类型修复标注。特征规则提取系统把人工修复结果用于标注每条商家信息文本,如果不是所需特征词就标注other(O),从而完成训练语料的制作。

降噪处理具体包括如下过程:采用条件匹配方法,将人工修复标注特征与商家全名进行匹配。采用“BIO”标注体系,对商家全名标注特征词及其他词标签。如果无法匹配到商家全名,则跳过该条商家文本。

步骤S04对训练语料的字映射成索引表示,构建字-索引映射表,对语种标签构建标签-索引映射表,从预训练的字向量模型中读取出字向量,作为初始化值输入到字向量模型中,通过字-索引映射表和标签-索引映射表把商家文本与实体标签数值化为索引表示并填充为定长,提交给序列标注模型训练:本步骤中,对训练语料的字映射成索引表示,构建字-索引映射表,同样对语种标签构建标签-索引映射表,然后从预训练的字向量模型中读取出字向量,作为初始化值输入到字向量模型中。此外,通过字-索引映射表和标签-索引映射表把商家文本与实体标签数值化为索引表示并填充为定长,最后提交给序列标注模型训练。

步骤S05序列标注模型对待测试的商家文本进行预测标注,找出商家文本中存在的实体信息:本步骤中,预测标注是基于BILSTM-CRF实现的。特征信息提取系统加载训练文本,用标注文本训练模型,得到最优预测的保存到模型文件中;特征信息提取系统通过FTP下载需要预测提取商家信息的文本,通过BILSTM-CRF序列标注模型进行商家信息特征提取,最后得到商家特征及类型结果。

本发明获取电信运营商商家信息文本后,基于特征词规则进行标识商家特征,通过人工复核及修复标识有误的文本,转化为序列标注文本规定形式,完成训练语料的制作。接着采用深度学习对语料进行模型搭建、训练,最终通过训练好的模型对更多商家名称提取特征信息及商家类别。利用该基于深度学习的自动提取商家信息的方法解决了目前运营商需要对每个城市大量商家名称进行人工标注,耗费大量人力的问题。本发明基于自然语言处理、深度学习,具有可靠性、模式化强、准确度高的特点,整个过程只需要很少的人工操作,且不依赖运营商提供训练语料,从而为运营商节省了大量的人力和时间成本。

对于本实施例而言,上述通过特征规则提取商家特征的步骤可以进一步细化,其细化后的流程图如图3所示。图3中,述通过特征规则提取商家特征的步骤进一步包括如下步骤:

步骤S11构建需剔除的单词字典:本步骤中,构建需剔除的单词字典,包含地址、特殊专有名词,如:“天河区”、“中国***”、“广州省”等。

步骤S12对每条商家名称进行条件判断,商家名称开头存在字典内容需要过滤,商家名称下半段存在字典内容,则跳过字典内容中的词提取以及词后面内容,商家名称存在括号里的文本,则直接跳过括号内容:本步骤中,对每条商家名称进行条件判断,商家名称开头存在字典内容需要过滤,商家名称下半段存在字典内容,则跳过字典内容中的这些词提取以及词后面内容,商家名称存在括号里的文本,则直接跳过括号内容。

步骤S13按长度进行矫正特征提取内容:本步骤中,按长度进行矫正特征提取内容,如果商家文本短于3,则直接提取做特征词;如果商家文本长于15,特征词最大提取6位,公司类型最多两位。

对于本实施例而言,对序列标注模型的生成还可进一步细化,其细化后的流程图如图4所示。图4中,序列标注模型生成的步骤进一步包括:

步骤S41将训练语料读入内存,通过计算每个字在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的字,然后对剩余不重复字映射成索引表示,加上填充字符、未知字符和数字字符构成字-索引映射表,对标签构建标签-索引映射表:本步骤中,将训练语料读入内存,通过计算每个字在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的字,然后对剩余不重复字映射成索引表示。加上'<PAD>'、'<UNK>'、'<NUM>',分别表示填充字符、未知字符、数字字符,一起构成字-索引映射表,此外,对标签构建标签-索引映射表。

步骤S42全部商家文本存储为列表形式,设置过滤最小字频与最高字频、上下文选取窗口大小,采用word2vec模型训练商家文本,得到字向量模型,从字向量模型中读取字-索引映射表相对应的字向量,作为字向量模型模型的初始值:本步骤中,全部商家文本存储为列表形式,设置过滤最小字频与最高字频、上下文选取窗口大小,然后采用word2vec模型训练商家文本,得到字向量模型,从字向量模型中读取字-索引映射表相对应的字向量,作为字向量模型模型的初始值。

步骤S43通过字-索引映射表把每个文档单词数值化,对每个文档长度不一致情况进行定长处理,长度长于最高阈值进行截取,短于最低阈值采用<PAD>扩充,对标签采用同样的方法进行数值化,并把标签-索引映射表及词向量保存到配置文件中:本步骤中,通过字-索引映射表把每个文档单词数值化,此外,每个文档长度不一致情况,进行定长处理,长度长于最高阈值进行截取,短于最低阈值采用<PAD>扩充。此外,对标签采用同样的方法进行数值化,并把标签-索引映射表及词向量保存到配置文件中。

基于word2vec模型获得词向量,主要采用CBOW、连续词袋模型。主要思想是从输入的已知上下文信息,来预测当前单词的预测。该word2vec模型主要由三层神经网络构成(输入层,隐藏层,输出层),具体实现步骤如下:

(1)假设词向量空间dim为V,上下文词个数为C情况,输入one-hot的上下文。对于全部文档的字做编号,每个文档进行特征向量提取,文档中出现该字则标记为1,否则为0。

(2)所有one-hot分别乘以共享输入权重矩阵W。W为V*N矩阵,N为自己设定的数。然后得到的向量相加求平均作为隐层向量,1*N。

(3)乘以输出权重矩阵W’,即{N*V},获得想要的词向量矩阵。

通过BILstm-CRF序列模型对商家文本预测。BILstm-CRF方法把商家文本转化为定长的文本序列后,放入BILstm-CRF网络结构中训练。具体预测步骤包括:

(1)输入层(词嵌入层):在输入层输入定长n的文本序列c,每个词用向量xi表示,每个词嵌入的维度k。句子表示为xi:n=x1⊕x2⊕:::⊕xn,也就是说最终输入层输入的是文本序列c中各个词汇对应的分布式表示xi,即词向量。其中词向量采用预训练word2vec做输入层的输入,并在模型训练过程中不再微调。

(2)对词向量的序列进行BILSTM,输出的是文本序列c中每一个标签的预测分值。如文本c,BILSTM层输出1.5(B-person),0.9(I-person),0.1(other)。

(3)由于BILSTM输出标签结果不能保证正确,即存在标记偏置问题。CRF增加一些约束规则,降低预测错误的概率。

Figure BDA0002522581580000081

在训练模型前,为随机初始化矩阵Ayi,yi+1,CRF层随着训练迭代次数增加,不断学习约束,使其越来越“合理”。

总之,本发明涉及电信通讯、深度学习和自然语言领域,特别是涉及一种基于深度学习对运营商文本提取商家信息的方法。深度学习的出现,可以在尽可能降低前期人员标注的前提下,通过现有特征词规则提取特征和少量人工抽检、修复方法完成训练语料制作;通过深度学习对训练语料进行建模,模型结果对其他商家名称进行特征提取,本发明减少人工逐一标注的人力、减少时间成本、高效率、自动化、准确性高。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于深度学习实现语种识别的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!