一种多神经网络协作的军事领域命名实体识别方法

文档序号:1170290 发布日期:2020-09-18 浏览:7次 >En<

阅读说明:本技术 一种多神经网络协作的军事领域命名实体识别方法 (Military field named entity identification method with cooperation of multiple neural networks ) 是由 尹学振 赵慧 陈沁蕙 李欣妍 于 2020-04-21 设计创作,主要内容包括:本发明提出了一种多神经网络协作的军事领域命名实体识别方法,包括以下步骤:步骤A:获取公开的微博数据,形成原始数据集;步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;步骤C:针对原始数据集进行文本预处理,结合步骤B实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;步骤D:利用深度学习和统计学习的框架,训练了基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对微博为代表的中文社交文本的军事领域命名实体识别任务。(The invention provides a military field named entity identification method with multi-neural network cooperation, which comprises the following steps: step A: acquiring public microblog data to form an original data set; and B: combining with domain knowledge, proposing a military domain entity labeling strategy considering entity fuzzy boundaries, and formulating a military domain named entity classification standard; and C: b, performing text preprocessing on the original data set, and constructing a military corpus set MilitaryCorpus by combining the entity labeling strategy and the entity classification standard in the step B; step D: by utilizing a deep learning and statistical learning framework, a multi-neural-network collaborative military field named entity recognition model based on a BERT-BilSTM-CRF network structure is trained to perform a military field named entity recognition task aiming at Chinese social texts represented by microblogs.)

一种多神经网络协作的军事领域命名实体识别方法

技术领域

本发明属于军事技术领域,涉及一种多神经网络协作的命名实体识别方法,特别针对军事领域实体的命名实体识别方法。

背景技术

命名实体识别是进行智能问答、知识图谱等自然语言处理研究的基础工作,一直受到研究者的关注。早期的命名实体识别研究大多采用基于规则和基于字典的方法,依赖于大量手工设定的识别规则,很难对语料全面覆盖,并且规则的制定往往依赖于数据集,当数据集发生变化即需要更新规则。基于统计学习的实体识别方法避免了大量规则的制定,其将命名实体识别问题转化为序列化标注问题,但是,基于统计学习的命名实体识别方法依赖于预先定义的特征,特征工程不仅代价高而且与特定领域相关,导致领域知识提高了模型的识别有效性的同时牺牲了模型的泛化能力和迁移能力。

计算能力的提升以及词的分布式表示技术的支持,使得基于深度神经网络的命名实体识别任务不再依赖特征工程,并取得了显著的研究进展。目前已有研究证明在中文命名实体识别中应用字向量表征的识别准确度要优于应用词向量表征的方式;已有研究者使用卷积神经网络、BiLSTM、CRF等进行模型网络结构的设计,并在生物医药等专有领域的实体识别中取得较好的识别效果;针对军事领域,有研究者针对作战文书、想定文书等规范的文本进行实体识别工作,取得了积极、客观的研究成果。然而,电子病历、军事文本、作战文书等规范化文本中实体分布相对密集、具有一定的规律且实体边界较为清晰,而微博、Tweets等社交媒体数据中实体分布稀疏,实体表达不规范,实体边界常常不清晰,因而如何面向微博等含有模糊边界实体的社交媒体数据进行军事领域的命名实体识别成为一个新的研究问题。

发明内容

本发明的目的在于提供一种军事领域的命名实体识别方法,其包括:提出针对实体模糊边界的实体标注机制解决实体识别任务中实体边界难以界定以及实体简化表达的问题;利用多神经网络协作的基于Transformer的双向编码器(BERT)并结合双向长短时记忆神经网络(BiLSTM)和条件随机场(CRF)的军事领域命名实体识别模型(BERT-BiLSTM-CRF)解决基于单CRF模型需要依赖大量人工特征选取工作,基于LSTM模型需要依靠庞大的语料库构建词向量的问题,提升了实体识别效果。

本发明提出的多神经网络协作的军事领域命名实体识别方法,包含以下步骤:

步骤A:获取公开的微博文本数据,形成原始数据集;

步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;

步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;

步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。

本发明中,步骤B包括:

步骤B1:除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体;

步骤B2:结合专业知识和文献资料,提出考虑模糊边界的实体标注规则:

规则1:英文字母,短横线,数字与武器装备相连,将英文字母,短横线,数字与武器装备整体标注为武器装备实体;

规则2:军事机构与武器装备相连,若武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;若武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体;

规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体;

规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体;

规则5:军事地名/军事机构与军事设施相连,若军事设施为具有具体名称的军事设施,则分别标注为军事地名/军事机构实体和军事设施实体;若军事设施没有具体名称则将相连的整体标注为军事设施实体。

本发明中,步骤C包括:

步骤C1:对所述的原始数据集进行清洗,删除不含军事信息的数据,删除数据中的特殊符号;所述特殊符号包括:表情、颜文字;

步骤C2:结合步骤B的考虑实体模糊边界的军事领域实体标注策略,及军事领域命名实体分类标准,针对步骤C1处理后的文本进行字级别的标注,形成军事领域命名实体语料集MilitaryCorpus。

本发明中,步骤D包括:

步骤D1:对军事语料进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器将所述特征向量ck转换成带有字特征和位置特征的字向量Ek

步骤D2:将字向量序列输入双向长短时记忆神经网络提取出上下文特征并生成特征矩阵Pk

步骤D3:CRF层根据特征向量ck捕获相邻标签之间的依赖关系,并通过所述相邻标签之间的依赖关系确定整个句子优化的标签序列。

其中,步骤D1中基于BERT的字向量表达层实现:

对MilitaryCorpus语料集中语料sij=(xij1,xij2,...,xijn)的每一个字计算3个特征:字特征,句子特征,位置特征定义sij=(xij1,xij2,...,xijn)的字特征为为句子特征,位置特征为

在字特征生成时,针对xijk,采用BERT词汇表确定其对应的字向量每一次的识别单元为一个句子,将句子特征设置为0,即对于

Figure BDA0002459490570000035

其中,

Figure BDA0002459490570000037

表示第k个字的位置特征,即为k;基于BERT的字向量表示层输入为字特征,句子特征与位置特征的数值和其中,Ck∈C,C=(C1,C2,C3,...,Cn);

所述C=(C1,C2,C3,...,Cn)经多层Transformer计算输出最终的特征向量E=(E1,E2,E3,...,En);每一个Transformer节点的输出矩阵都作为上一层所有Transformer节点的输入,然后使用BERT的计算机制进行计算得到字级别的特征向量序列E=(E1,E2,E3,...,En),作为BiLSTM神经网络层的输入。

其中,步骤D2中基于双向长短时记忆神经网络层实现:

基于BERT的字向量表示层E=(E1,E2,E3,...,En)作为本层的输入,在对应时间点的隐藏节点中做特征计算;前向LSTM隐藏层的输出序列为F=(F1,F2,F3,...,Fn),F1的输入为E1,从F2开始

Figure BDA0002459490570000041

输入为后向LSTM隐藏层的输出序列为B=(B1,B2,B3,...,Bn),B1的输入为E1,从B2开始

Figure BDA0002459490570000043

输入为

Figure BDA0002459490570000044

对于Ek计算输出向量Pk,即

Figure BDA0002459490570000045

最终,BiLSTM神经网络的输出是给定E=(E1,E2,E3,...,En),生成特征矩阵P∈Rpyz表示输入的句子sij中字xy是z标签概率;特征矩阵P作为CRF层的输入,用以生成sij=(xij1,xij2,...,xijn)的标签序列。

其中,步骤D3中CRF层实现:

对于BiLSTM神经网络层的输出矩阵P,定义针对模型的输入(xij1,xij2,...,xijn)的标记序列为y=(y1,y2,y3,...,yn),同时定义转移矩阵为其中m为实体种类个数,aij表示标签i转移到标签j的概率,则产生标记序列y=(y1,y2,y3,...,yn)分数函数为:

Figure BDA0002459490570000048

其中y0表示Sij的开始标签,yn+1表示Sij的结束标签,仅用作标记,不包含在最终的预测标签序列中;表示标签由yk转移至yk+1的概率,

Figure BDA00024594905700000410

由基于BiLSTM的上下文特征抽取部分的输出矩阵所得,表示Sij中xijk标签为yk的概率;通过转移矩阵和基于BiLSTM的上下文特征抽取部分的输出矩阵计算出y=(y1,y2,y3,...,yn)序列的分数,并输入给softmax函数;使用公式(2)计算Sij的每个可能的预测序列概率:

其中YX表示针对Sij所有可能的预测标签序列,表示真实的标记序列;

在训练的过程中,为了求取最优的预测标签序列,要使得p(y|sij)最大化,为了方便计算,基于公式(3)对p(y|sij)求对数似然:

通过对log(p(y|sij))求最大化,基于CRF的编码部分得到全局最优的标签序列;在解码阶段,基于公式(4)求出整体概率最高的一组序列为最优的标签序列,作为基于CRF编码全局最优标签的输出:

本发明采用的技术方案有以下技术特点:

1)本发明结合领域专家的意见,提出针对实体模糊边界的实体标注机制,基于开放数据构建了军事领域语料集MilitaryCorpus。

2)提出了一种多神经网络协作的以基于Transformer的双向编码器(BERT)并结合双向长短时记忆神经网络(BiLSTM)和条件随机场(CRF)的军事领域命名实体识别模型(BERT-BiLSTM-CRF)为核心的军事领域实体识别方法。

3)相较于基于CRF的命名实体识别模型(CRF)、基于双向LSTM(BiLSTM)和CRF的命名实体识别模型(BiLSTM-CRF)、基于卷积神经网络(CNN)、BiLSTM和CRF的命名实体识别模型(CNN-BiLSTM-CRF)等主流的实体识别模型,本发明提出的多神经网络协作的军事领域实体识别方法结合了字特征、句子特征、位置特征生成字向量,并使用Transformer训练字向量,充分考虑上下文信息对实体的影响,解决了结合字级别的特征向量仅考虑字的特征而忽略了结合上下文进行实体识别的不足。取得了更高的有效性,更好的识别效果。

附图说明

图1是本发明提出的多神经网络协作的军事领域实体识别模型的结构图

图2是本发明提出命名实体识别模型基于BERT的字向量表达层输入示意图;

图3是本发明中BERT表示层的整体示意图。

具体实施方式

下面结合具体实施方式,对本发明实施例中的技术方案进行清楚、完整地描述。下述所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出了一种多神经网络协作的军事领域命名实体识别模型的技术方

案如下:

1)提出考虑实体模糊边界的实体标注策略,结合领域专家知识,构建基于微博数据的军事语料集MilitaryCorpus,具体步骤如下:

a)选取“新浪军事”、“集结号”、“微观军情”,3个微博账号2013年12月至2018年12月间的21711条微博作为原始数据集;

b)结合领域专家的专业知识和已有的文献资料提出考虑模糊边界的实体标注规则,确定面向军事领域命名实体的划分类别;

c)原始数据进行清洗,删除包含只有表情、广告信息、招聘信息等不含军事信息的微博;

d)按照字级别对未经标注的原始语料库中的语料进行标注,形成军事领域命名实体语料集MilitaryCorpus。

2)构建了一种多神经网络协作的军事领域命名实体识别模型,如图1所示,具体步骤如下:

a)对微博进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器(BERT)将ck转换成带有字特征和位置特征的字向量Ek

b)将字向量序列输入双向长短时记忆网络(BiLSTM)提取出上下文特征并生成特征矩阵Pk

c)最后CRF层根据特征向量捕获相邻标签之间的依赖关系,并通过相邻标签之间的依赖关系确定整个句子优化的标签序列。

进一步的,所述步骤(1b)中考虑模糊边界的实体标注规则的具体内容是:

除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体。同时参考《军语》与领域专家的建议,提出考虑模糊边界的实体标注规则。

规则1:英文字母,(短横线),数字与武器装备相连,将英文字母,(短横线),数字与武器装备整体标注为武器装备实体。如:{ZTZ-99式坦克}。

规则2:军事机构与武器装备相连,如果武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;如果武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体。如:{俄军,图-160轰炸机},{俄军轰炸机}。

规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体。如:{某师步兵旅}。

规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体。如:{日本防长}。

规则5:军事地名(或军事机构)与军事设施相连,如果军事设施为具有具体名称的军事设施,则分别标注为军事地名(或军事机构)实体和军事设施实体;如果军事设施没有具体名称则将相连的整体标注为军事设施实体。如:{澳大利亚,威廉斯顿空军基地}。

通过这种实体标注机制,解决了军事领域命名实体标注过程中实体界限模糊、实体边界难以确定的问题。

进一步的,所述步骤(1d)中面向军事领域命名实体的划分类别的具体内容是:

本发明针对军事领域命名实体专业术语多、歧义少的特点,采用简洁、高效的BIO标注机制,由领域专家参与共同标注。BIO标注是针对数据集中的每个实体进行字级别的位置标注,B用来表示命名实体的开始,I用来表示命名实体的内部,O表示不属于命名实体中的字。具体的标注方式如表1所示。

表1 军事领域命名实体标注类别

实体类别 实体开始 实体内部
人员名称(P) B-P I-P
军事地名(L) B-L I-L
时间(T) B-T I-T
军衔或军职(R) B-R I-R
军事机构(G) B-G I-G
军事设施(F) B-F I-F
军事事件(E) B-E I-E
军事武器(W) B-W I-W

进一步的,所述步骤(2a)中基于BERT的字向量表达层实现的具体内容是:

本发明根据BERT提供的微调机制结合中文军事领域命名识别问题的特殊性,构建了基于BERT的字向量表达层,完成了字向量的生成工作。

对sij=(xij1,xij2,...,xijn)中的每一个字计算3个特征:字特征,句子特征,位置特征定义sij=(xij1,xij2,...,xijn)的字特征为 为句子特征,位置特征为。在字特征生成时,针对xijk,采用Google提供的BERT词汇表确定其对应的字向量模型的输入基于句子,每一次的识别单元为一个句子,句子的特征对实体识别无效,因而本发明将句子特征设置为0,即对于

Figure BDA0002459490570000087

表示第k个字的位置特征,即为k。基于BERT的字向量表示层输入为字特征,句子特征与位置特征的数值和

Figure BDA0002459490570000088

其中Ck∈C,C=(C1,C2,C3,...,Cn),如图2所示。

得到的C=(C1,C2,C3,...,Cn)经多层Transformer计算输出最终的特征向量E=(E1,E2,E3,...,En)。每一个Transformer节点的输出矩阵都作为上一层所有Transformer节点的输入,然后使用BERT的计算机制进行计算得到字级别的特征向量序列E=(E1,E2,E3,...,En),作为BiLSTM神经网络层的输入,如图3所不。

进一步的,所述步骤(2b)中BiLSTM神经网络层的具体内容是:

军事领域的命名实体存在远距离依赖问题,本发明应用双向长短时神经网络(BiLSTM)来解决。基于BERT的字向量表示层E=(E1,E2,E3,...,En)作为本层的输入,在对应时间点的隐藏节点中做特征计算。前向LSTM隐藏层的输出序列为F=(F1,F2,F3,...,Fn),F1的输入为E1,从F2开始输入为

Figure BDA0002459490570000092

后向LSTM隐藏层的输出序列为B=(B1,B2,B3,...,Bn),B1的输入为E1,从B2开始输入为对于Ek计算输出向量Pk,即

Figure BDA0002459490570000095

最终,BiLSTM神经网络的输出是给定E=(E1,E2,E3,...,En),生成特征矩阵P∈R

Figure BDA0002459490570000096

pyz表示输入的句子sij中字xy是z标签概率。特征矩阵P作为CRF层的输入,用以生成sij=(xij1,xij2,...,xijn)的标签序列。

进一步的,所述步骤(2c)中CRF层的具体内容是:

CRF层通过相邻标签的关系获得全局最优标记序列,为最后预测的标签增加约束:

1)句子中第一个字以标签“B-”或“O-”开始,且以“O-”开始的标签不能与标签“I-”顺序连接;

2)标签“B-X1 I-X2I-X3”中X1,X2,X3应属于同一类别;基于这些约束,降低标签序列预测中出现非法序列的概率;

对于BiLSTM神经网络层的输出矩阵P,定义针对模型的输入(xij1,xij2,...,xijn)的标记序列为y=(y1,y2,y3,...,yn),同时定义转移矩阵为其中m为实体种类个数,aij表示标签i转移到标签j的概率,则产生标记序列y=(y1,y2,y3,...,yn)分数函数为:

Figure BDA0002459490570000098

其中y0表示Sij的开始标签,yn+1表示Sij的结束标签,仅用作标记,不包含在最终的预测标签序列中。

Figure BDA0002459490570000105

表示标签由yk转移至yk+1的概率,由基于BiLSTM的上下文特征抽取部分的输出矩阵所得,表示Sij中xijk标签为yk的概率。通过转移矩阵和基于BiLSTM的上下文特征抽取部分的输出矩阵计算出y=(y1,y2,y3,...,yn)序列的分数,并输入给softmax函数。使用公式(2)计算Sij的每个可能的预测序列概率。

其中YX表示针对Sij所有可能的预测标签序列,

Figure BDA0002459490570000102

表示真实的标记序列。

在训练的过程中,为了求取最优的预测标签序列,要使得p(y|sij)最大化,为了方便计算,基于公式(3)对p(y|sij)求对数似然。

Figure BDA0002459490570000103

通过对log(p(y|sij))求最大化,基于CRF的编码部分得到全局最优的标签序列。在解码阶段,基于公式(4)求出整体概率最高的一组序列为最优的标签序列,作为基于CRF编码全局最优标签的输出。

Figure BDA0002459490570000104

实施例

本发明提出的多神经网络协作的军事领域命名实体识别方法,具体实施实例包括以下步骤:

步骤1:在本实施例中,将“新浪军事”、“集结号”、“微观军情”3个微博账号2013年12月至2018年12月间的21711条微博作为原始数据集。

步骤2:在本实施例中,需要对获取的微博数据进行清洗,删除包含只有表情、广告信息、招聘信息等不含军事信息的微博,然后以标点符号“。”、“?”、“!”、“……”作为标志对清洗后的数据进行句子级别的划分,并将划分完之后的句子按字为单位存入excel以便后续词性标注。

步骤3:本实施例应用发明中提出的模糊边界实体标注规则,结合领域专家的专业知识和已有的文献资料确定面向军事领域命名实体的划分类别,将军事领域命名实体分为8大类,分别是人员名称、军事地名、时间、军衔或军职、军事机构、军事设施、军事事件、武器装备以及其他类别。按照字级别对未经标注的原始语料库中的语料进行标注,最终构建包含15317条微博,20388个句子和人员名称、军事地名、时间、军衔或军职、军事机构、军事设施、军事事件和军事武器装备8个类别的语料集MilitaryCorpus。

步骤4:根据BERT提供的微调机制结合中文军事领域命名识别问题的特殊性,构建基于BERT的字向量表达层,完成字向量的生成工作。

对sij=(xij1,xij2,...,xijn)中的每一个字计算3个特征:字特征,句子特征,位置特征定义sij=(xij1,xij2,...,xijn)的字特征为

Figure BDA0002459490570000111

为句子特征,位置特征为在字特征生成时,针对xijk,采用Google提供的BERT词汇表确定其对应的字向量模型的输入基于句子,每一次的识别单元为一个句子,句子的特征对实体识别无效,因而本发明将句子特征设置为0,即对于

Figure BDA0002459490570000116

表示第k个字的位置特征,即为k。基于BERT的字向量表示层输入为字特征,句子特征与位置特征的数值和其中Ck∈C,C=(C1,C2,C3,...,Cn),如图2所示。

得到的C=(C1,C2,C3,...,Cn)经多层Transformer计算输出最终的特征向量E=(E1,E2,E3,...,En)。每一个Transformer节点的输出矩阵都作为上一层所有Transformer节点的输入,然后使用BERT的计算机制进行计算得到字级别的特征向量序列E=(E1,E2,E3,...,En),作为BiLSTM神经网络层的输入,如图3所示。

步骤5:基于BERT的字向量表示层E=(E1,E2,E3,...,En)作为本层的输入,在对应时间点的隐藏节点中做特征计算。前向LSTM隐藏层的输出序列为F=(F1,F2,F3,...,Fn),F1的输入为E1,从F2开始

Figure BDA0002459490570000119

输入为

Figure BDA00024594905700001110

后向LSTM隐藏层的输出序列为B=(B1,B2,B3,...,Bn),B1的输入为E1,从B2开始

Figure BDA0002459490570000121

输入为

Figure BDA0002459490570000122

对于Ek计算输出向量Pk,即最终,BiLSTM神经网络的输出是给定E=(E1,E2,E3,...,En),生成特征矩阵P∈R

Figure BDA0002459490570000124

pyz表示输入的句子sij中字xy是z标签概率。特征矩阵P作为CRF层的输入,用以生成sij=(xij1,xij2,...,xijn)的标签序列。步骤6:对于BiLSTM神经网络层的输出矩阵P,定义针对模型的输入(xij1,xij2,...,xijn)的标记序列为y=(y1,y2,y3,...,yn),同时定义转移矩阵为其中m为实体种类个数,aij表示标签i转移到标签j的概率,则产生标记序列y=(y1,y2,y3,...,yn)分数函数为:

其中y0表示Sij的开始标签,yn+1表示Sij的结束标签,仅用作标记,不包含在最终的预测标签序列中。表示标签由yk转移至yk+1的概率,由基于BiLSTM的上下文特征抽取部分的输出矩阵所得,表示Sij中xijk标签为yk的概率。通过转移矩阵和基于BiLSTM的上下文特征抽取部分的输出矩阵计算出y=(y1,y2,y3,...,yn)序列的分数,并输入给softmax函数。使用公式(2)计算sij的每个可能的预测序列概率。

其中YX表示针对Sij所有可能的预测标签序列,

Figure BDA0002459490570000128

表示真实的标记序列。

在训练的过程中,为了求取最优的预测标签序列,要使得p(y|sij)最大化,为了方便计算,基于公式(3)对p(y|sij)求对数似然。

通过对log(p(y|sij))求最大化,基于CRF的编码部分得到全局最优的标签序列。在解码阶段,基于公式(4)求出整体概率最高的一组序列为最优的标签序列,作为基于CRF编码全局最优标签的输出。

本发明未尽事宜为公知技术。

上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:命名实体识别模型、电话总机转接分机方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!