一种诈骗文本命名实体识别方法及系统

文档序号：1831802 发布日期：2021-11-12 浏览：10次 >En<

阅读说明：本技术 一种诈骗文本命名实体识别方法及系统 (Method and system for identifying fraud text named entities ) 是由张震刘发强孙旭东刘志会曹勇高欢于 2020-04-27 设计创作，主要内容包括：本发明提出一种诈骗文本命名实体识别方法,包括：收集诈骗文本,对诈骗文本进行类别标记；使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练,生成诈骗文本命名实体判断模型；接收新通信文本,使用诈骗文本命名实体判断模型对新通信文本进行分析,获取新通信文本中的命名实体及类别。本发明针对诈骗文本手段不断变化,收集大量的历史诈骗文本,构建诈骗文本命名实体判断模型,周期性收集多条历史诈骗文本的相关数据对诈骗文本命名实体判断模型进行自回溯验证,对新通讯文本命名实体识别进行实时验证,实现系统自动化分析处理与人工校准相结合,有效识别新型诈骗文本中的命名实体,通过自动验证不断完善系统模型,实现系统自动化。(The invention provides a method for identifying a fraud text named entity, which comprises the following steps: collecting fraud texts, and carrying out category marking on the fraud texts; carrying out fraud text model training by using the fraud texts and the fraud texts marked by the categories to generate a fraud text named entity judgment model; and receiving the new communication text, analyzing the new communication text by using the fraud text named entity judgment model, and acquiring named entities and categories in the new communication text. Aiming at the fact that the fraud text means are changed continuously, a large number of historical fraud texts are collected, a fraud text named entity judgment model is built, relevant data of a plurality of historical fraud texts are collected periodically, the fraud text named entity judgment model is verified in a self-tracing mode, new communication text named entity identification is verified in real time, combination of automatic analysis processing and manual calibration of the system is achieved, named entities in the novel fraud texts are effectively identified, and system automation is achieved through continuous improvement of the system model through automatic verification.)

一种诈骗文本命名实体识别方法及系统

技术领域

本发明属于深度学习技术领域，特别涉及一种诈骗文本命名实体识别方法及系统。

背景技术

随着互联网、通讯业的不断发展，以网络、通讯介质为媒介的通讯诈骗犯罪呈现了普遍蔓延的趋势，并且随着时间的推移，作案手段不断翻新，给防范和打击此类犯罪带来很大困难。

诈骗文本属于较口语化的对话型文本，不同于书面语结构紧凑、主题思路明确、用于规范的特点，诈骗文本含有大量问答对且问答对中信息相对重要、主题多变而且容易漂移、主题交织且组织结构混乱等特点，造成自然语言语义分析的困难。诈骗文本实体识别是为了识别文本中各种专有名词，包括人名、地名、机构、组织、金额、联系方式等信息，这对识别是否诈骗至关重要。

目前，通讯网诈骗文本命名实体识别主要规则匹配技术，根据诈骗文本人工制作规则模板，使用模板去匹配提取命名实体。而随着监管的加强，道高一尺魔高一丈，有害文本的变种层出不穷，模板匹配技术严重滞后，给诈骗文本分析提出了挑战。

发明内容

针对上述问题，本发明提出一种基于网内开卡行为分析的诈骗电话识别方法，包括：

收集诈骗文本，对诈骗文本进行类别标记；

使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；

接收新通信文本，使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别。

进一步地，所述对诈骗文本进行类别标记包括：

使用命名实体类别，对诈骗文本中包含的命名实体进行类别标记。

进一步地，所述命名实体类别包括人名、地名、机构、组织、金额、联系方式中的一种或多种。

进一步地，所述使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型包括：

建立BiLSTM-CRF模型；

使用诈骗文本和类别标记过的诈骗文本在所述模型中训练，

生成诈骗文本命名实体判断模型。

进一步的，所述方法还包括自动更新诈骗文本命名实体判断模型；

所述自动更新诈骗文本命名实体判断模型包括：

周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；

使用新的诈骗文本和类别标记过的新的诈骗文本进行诈骗文本模型训练，生成新的诈骗文本命名实体判断模型。

本发明还设计了一种诈骗文本命名实体识别系统，包括：

数据查询管理模块，用于收集诈骗文本，对诈骗文本进行类别标记；

模型自学习模块，用于使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；

实时检测模块，用于接收新通信文本，使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别。

进一步地，所述对诈骗文本进行类别标记包括：

使用命名实体类别，对诈骗文本中包含的命名实体进行类别标记。

进一步地，所述命名实体类别包括人名、地名、机构、组织、金额、联系方式中的一种或多种。

进一步地，所述模型自学习模块包括：

建立组件，用于建立BiLSTM-CRF模型；

训练组件，用于使用诈骗文本和类别标记过的诈骗文本在所述模型中训练；

生成组件，用于生成诈骗文本命名实体判断模型。

进一步地，模型自更新模块，

所述模型自更新模块用于周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；

使用新的诈骗文本和类别标记过的新的诈骗文本进行诈骗文本模型训练，生成新的诈骗文本命名实体判断模型。

本发明针对诈骗文本手段不断变化，收集大量的历史诈骗文本，构建诈骗文本命名实体判断模型，周期性收集多条历史诈骗文本的相关数据对诈骗文本命名实体判断模型进行自回溯验证，对新通讯文本命名实体识别进行实时验证，实现系统自动化分析处理与人工校准相结合，有效识别新型诈骗文本中的命名实体，通过自动验证不断完善系统模型，实现系统自动化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的诈骗文本命名实体识别方法流程示意图；

图2示出了根据本发明实施例的诈骗文本命名实体识别系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种诈骗文本命名实体识别方法，所述方法可以采用但不限于以下流程。示例性的，如图1所示，所述方法包括：

收集诈骗文本，对诈骗文本进行类别标记；

使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；

接收新通信文本，使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别。

具体的，收集诈骗文本，对诈骗文本进行类别标记。

所述对诈骗文本进行类别标记包括：

使用命名实体类别，对诈骗文本中包含的命名实体进行类别标记；

所述命名实体类别包括人名、地名、机构、组织、金额、联系方式中的一种或多种。

示例性的，事先收集大量的诈骗文本，可以通过邮箱系统、手机管理软件等软件收集，也可以通过公安相关部门收集。

收集后对诈骗文本进行类别标记。类别标记指事先设定不同类别对文本中的内容进行标记，标记包括所属的命名实体类别，包括标记命名实体的开始字符、中间字符和结束字符。类别可以事先设定，如动物名、植物名等。本发明使用命名实体类别进行类别标记，命名实体类别包括人名、地名、机构、组织、金额、联系方式中的一种或多种，其中，机构是指机关、团体等的内部组织，如某机关下属账务司就是一种机构；组织是人们按照一定的目的、任务和形式编制起来的社会集团，如计算机协会就是一个组织；联系方式可以是手机号、可以是固定电话号、邮箱、QQ号等各种联系号码。诈骗文本中包含大量内容，对其中包含人名、地名、机构、组织、金额、联系方式的内容进行标识。类别标记过的文本包括该文本包含有哪些命名实体，其所属的具体类别，每个具体命名实体的开始字符、中间字符和结束字符。类别标记过的诈骗文本包括该诈骗文本包含有哪些命名实体，其所属的具体类别，每个具体命名实体的开始字符、中间字符和结束字符。

如以下诈骗文本，该文本来自于诈骗短信，“？【澳门永利皇宫代理招商】业界最具诚信的国际合法线上平台、金字塔层层代理自娱游戏亦可发展代理日结佣金秒速提款到账？？？？？？？？？？？？？？？？百家乐、彩票投注、体育赛事电子游艺、棋牌竞技、牛牛、捕鱼、AG电子、MG电子、PT电子、北京赛车、六合彩48.86倍？？？？？？？？？？？？？？？？澳门永利皇宫娱乐网投？？APP:www.5988.app？？访问官网：www.71083.com？？公关服务微信:987417940短信回复“1288”下载注册有效代理即送1288彩金？？？？？？？？？？？？？？？？”，其中，“？”部分为图片内容，其他部分为文本。

可以使用但是不限于以下方式进行类别标记。定义不同字符，分别代表命名实体类别，如a表示人名、b表示地名、c表示机构、d表示组织、e表示金额、f表示联系方式；字符可以是特殊字符使得与诈骗文本中内容不相同；定义开始字符、中间字符、结束字符；开始字符指文本中某一个词语属于某一个实体类别，这个词语开始的字符，结束字符指的这个词语结束的字符，中间字符指除了开始字符和结束字符外，其他字符；中间字符可以没有；如词语“澳门”的开始字符为“澳”，结束字符为“门”，由于开始字符与结束字符之间无其他字符，所以词语“澳门”无中间字符；如词语“永利皇宫”开始字符为“永”，中间字符为“利皇”，结束字符为“宫”。同样可以定义不同字符，分别代表开始字符、中间字符和结束字符，如1代表开始字符；2代表中间字符；3代表结束字符。则a1代表人名开始字符；c2代表机构中间字符；f3代表联系方式结束字符。标记实际会使用一些更特殊的字符，如希腊字母等；甚至在文档中不可见但是计算机可以识别的字符；但是为了本方法更容易使人理解，使用普通的英文字符和数字来举例。

则上文的诈骗文本标记后的如下：“b1澳，b2门，d1永，d2利皇，d3宫，b1澳，b2门，d1永，d2利皇，d3宫，f1w，f2ww.5988.ap，f3p，f1w，f2ww.71083.co，f3m，f19，f28741794，f30，e11，e228，e38”。

优选的，对诈骗文本先分类，然后再进行类别标记。如把诈骗文本按诈骗种类分为仿冒身份诈骗、购物诈骗等；然后对分类后的诈骗文本进行类别标记。

具体的，使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；包括：建立BiLSTM-CRF模型；使用诈骗文本和类别标记过的诈骗文本在所述模型中训练，生成诈骗文本命名实体判断模型。

示例性的，建立BiLSTM-CRF模型。所述模型有两层结构，分别为：BiLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆神经网络)，是一种时间循环神经网络，由前向的LSTM(Long Short-Term Memory，长短期记忆神经网络)与后向的LSTM结合成；CRF(Conditional Random Field，条件随机场)是一种典型的判别式模型。

使用所述诈骗文本和类别标记过的诈骗文本在所述模型中训练，包括：诈骗文本生成诈骗文本词向量，使用所述诈骗文本词向量和类别标记过的诈骗文本在所述模型中训练。即把诈骗文本词向量作为BiLSTM-CRF模型的输入量，类别标记过的诈骗文本作为BiLSTM-CRF模型的输出量；由于输入量与输出量已经确认，BiLSTM-CRF模型会自动学习。

示例性的，可以使用但是不限于以下方式生成词向量，使用词嵌入技术生成词向量，如使用词嵌入技术软件：托马斯·米科洛维的Word2vec、斯坦福大学的GloVe和Deeplearning4j等。

优选的，也可以使用分类后的诈骗文本和类别标记过的分类后诈骗文本在BiLSTM-CRF模型中训练，即把分类后的诈骗文本词向量作为BiLSTM-CRF模型的输入量，把类别标记过的分类后诈骗文本作为BiLSTM-CRF模型的输出量。

诈骗文本词向量进入到BiLSTM-CRF模型进行学习，处理过程如下：诈骗文本词向量进入到BiLSTM，拟合出回归树，生成BiLSTM预测分数；BiLSTM预测分数再进入到CRF，生成CRF预测分数，所述CRF预测分数表示的是在当前模型参数结构下，在类别标记过的诈骗文本上的预测分数，预测分数是概率值，值越高，代表该类型可能性越大。这样迭代多次获得最优学习结果。

BiLSTM分为双向长短期记忆神经网络输入量和输出量确定单元和双向长短期记忆神经网络权重值训练单元。诈骗文本词向量作为双向长短期记忆神经网络输入量和输出量确定单元的输入量，学习到的诈骗文本各类命名实体预测分数，即BiLSTM预测分数为输出量，如属于人名实体类别80％，属于地名实体类别20％。双向长短期记忆神经网络权重值训练单元，用于模型训练时判断需要，调节模型训练中学习的参数值，调节方法包括：词向量中的每维度值会与权重值进行线性相乘求和，得到一个值，该值经过双向长短期记忆神经网络权重值训练单元进行非线性的转换；在生成诈骗文本命名实体判断模型中，建立双向长短期记忆神经网络的诈骗文本各类命名实体的得分预测；示例性的，双向长短期记忆神经网络权重值训练单元可以使用Attention模型。

CRF分为条件随机场输入量和输出量确定单元和条件随机场权重值训练单元。BiLSTM预测分数为条件随机场输入量和输出量确定单元输入量，诈骗文本命名实体及类别作为输出量。条件随机场权重值训练单元能从训练数据中获得约束性的规则，用于训练条件随机场的权重值，在生成诈骗文本命名实体判断模型中，建立条件随机场的诈骗文本命名实体判断模型。示例性的，条件随机场权重值训练单元可以使用极大似然估计法。

BiLSTM-CRF模型经过诈骗文本和类别标记过的诈骗文本的训练后，生成诈骗文本命名实体判断模型；该模型可以分析出文本中的命名实体及类别。生成的诈骗文本命名实体判断模型包含BiLSTM和CRF两层模型，模型的最后一层都是在类别空间上的线性映射层，BiLSTM和CRF两层模型的线性映射层会将表示后的输入转换为在类别空间上的分数或概率，即BiLSTM和CRF两层模型会产生的命名实体得分。

优选的，使用分类后的诈骗文本和类别标记过的分类后诈骗文本在BiLSTM-CRF模型中训练，这样生成可以判断诈骗类别的诈骗文本命名实体判断模型；该模型可以分析出文本中的命名实体及类别，还可以分析文本属于哪一种诈骗类型。

具体的，接收新通信文本，使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别。

示例性的，接收新通信文本，将新通信文本输入到诈骗文本命名实体判断模型中，模型会给出该新通信文本中的命名实体及类别。将新通信文本输入到诈骗文本命名实体判断模型中包括，将新通信文本生成新通信文本词向量，所述新通信文本词向量输入到诈骗文本命名实体判断模型中。模型会给出该通信文本中该新通信文本中的命名实体及类别是通过置信度得到的。例如，模型判断，新通信文本包含A是命名实体，置信度为88％，属于地名类别，置信度为96％，属于人名，置信度为3％，属于机构，置信度为1％。模型给出新通信文本命名实体置信度，用来表示新通信文本包含命名实体的概率；给出类别置信度，用来表示该命名实体属于这种类别的概率。置信度的获取通过以下方式：由BiLSTM和CRF两层模型产生的命名实体得分进行线性加权来计算置信度。事先设置命名实体阈值，命名实体疑似阈值，模型给出新通信文本命名实体置信度；当1≥命名实体置信度>命名实体阈值时，判断此新通信文本包含命名实体，模型继续给出该命名实体的类别置信度；当命名实体阈值≥命名实体置信度>命名实体疑似阈值时，判断此新通信文本可能包含命名实体，交人工进行处理，模型可以设置直接生成类别置信度，也可以设置根据人工判断结果再生成类别置信度；当命名实体疑似阈值≥命名实体置信度≥0时，判断此通信文本不包含命名实体，即此通信文本不是诈骗文本，模型不再生成类别置信度。事先设置类别阈值，类别疑似阈值，其中类别阈值>0.5；模型会给出命名实体若干类别置信度，以类别置信度大小由高到低排列，如命名实体属于类别a，类别置信度为第一置信度；属于类别b，类别置信度为第二置信度；属于类别c，类别置信度为第三置信度……；当1≥第一置信度>类别阈值时，由于类别阈值>0.5，所以不可能有多个置信度均大于类别阈值情况，此时如果类别阈值≥第二置信度>类别疑似阈值，则模型同时给出两种类别置信度，并交人工继续判断；如果类别疑似阈值≥第二置信度≥0，此时模型判断此命名实体属于具体类别信息，即第一置信度所对应的类别a；如果类别阈值≥第一置信度≥0，则模型给出所有类别置信度并交人工继续判断。

优选的，把新通信文本输入到判断诈骗类别的诈骗文本命名实体判断模型，模型会给出该新通信文本中的命名实体及类别，并判断该新通信文本属于哪一种诈骗类别。

具体的，诈骗文本命名实体识别方法及识别方法还包括：自动更新诈骗文本命名实体判断模型；

所述自动更新诈骗文本命名实体判断模型包括：周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；使用新的诈骗文本和类别标记过的新的诈骗文本进行诈骗文本模型训练，生成新的诈骗文本命名实体判断模型。

示例性的，当有新的诈骗文本技术产生时，原来的诈骗文本命名实体判断模型就可能不大适应；同样需要人工校准来判定的诈骗文本，原来的判断模型再次判断，还是需要人工进行校准；这就需要对诈骗文本命名实体判断模型自动更新，以适应新的需求。自动更新的方法如下：周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；使用新的诈骗文本和类别标记过的新的诈骗文本在原来的诈骗文本命名实体判断模型进行诈骗文本模型训练，重新生成新的诈骗文本命名实体判断模型。

本发明还提供一种诈骗文本命名实体识别系统，如图2所示，包括：

数据查询管理模块，用于收集诈骗文本，对诈骗文本进行类别标记；

模型自学习模块，用于使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；

实时检测模块，用于使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别。

模型自更新模块，用于周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；使用新的诈骗文本和类别标记过的新的诈骗文本进行诈骗文本模型训练，生成新的诈骗文本命名实体判断模型。

具体的，数据查询管理模块，用于收集诈骗文本，对诈骗文本进行类别标记；生成类别标记过的诈骗文本；所述诈骗文本进行类别标记包括：使用命名实体类别，对诈骗文本中包含的命名实体进行类别标记；所述命名实体类别包括人名、地名、机构、组织、金额、联系方式中的一种或多种。

模型自学习模块，用于使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练，生成诈骗文本命名实体判断模型；

所述模型自学习模块包括：

建立组件，用于建立BiLSTM-CRF模型；生成BiLSTM-CRF模型；

训练组件，用于使用诈骗文本和类别标记过的诈骗文本在所述模型中训练；接收模型自学习模块传来的诈骗文本和类别标记过的诈骗文本；接收建立组件传来的BiLSTM-CRF模型，生成训练后的BiLSTM-CRF模型；

生成组件，用于生成诈骗文本命名实体判断模型；接收训练组件传来的训练后的BiLSTM-CRF模型，生成诈骗文本命名实体判断模型。

实时检测模块，用于接收新通信文本，使用诈骗文本命名实体判断模型对新通信文本进行分析，获取新通信文本中的命名实体及类别；接收模型自学习模块传来诈骗文本命名实体判断模型，生成新通信文本中的命名实体及类别。

模型自更新模块，用于周期性收集多条新的诈骗文本，对新的诈骗文本进行类别标记；使用新的诈骗文本和类别标记过的新的诈骗文本进行诈骗文本模型训练，重新生成新的诈骗文本命名实体判断模型。

示例性的，诈骗文本命名实体识别系统还包括：

数据存储模块，用于分布式存储诈骗文本的相关数据；

数据处理模块，用于对多条诈骗文本的相关数据快速抓取和分发。

本发明针对诈骗文本手段不断变化，收集大量的历史诈骗文本，通过自学习技术构建诈骗文本命名实体判断模型，周期性收集多条历史诈骗文本的相关数据对诈骗文本命名实体判断模型进行自回溯验证，对新通讯文本命名实体识别进行实时验证，实现系统自动化分析处理与人工校准相结合，通过系统模型自学习，有效识别新型诈骗文本中的命名实体，通过自动验证不断完善系统模型，实现系统自动化。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：术语识别模型的建立方法及装置、术语识别方法及装置

一种诈骗文本命名实体识别方法及系统

相关技术

网友询问留言