基于中文触发词指导的越南语新闻事件检测方法

文档序号:830109 发布日期:2021-03-30 浏览:32次 >En<

阅读说明:本技术 基于中文触发词指导的越南语新闻事件检测方法 (Vietnamese news event detection method based on Chinese trigger word guidance ) 是由 高盛祥 寇梦珂 余正涛 王振晗 朱俊国 朱恩昌 于 2020-10-16 设计创作,主要内容包括:本发明涉及基于中文触发词指导的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后在编码过程中融入实体信息,通过注意力机制将映射后的中文触发词嵌入指导模型关注越南语新闻中的触发词信息,最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。本发明目前事件检测需要识别新闻中的触发词,目前没有越南语触发词标记语料,使用丰富的中文标记语料可以解决越南语标记语料缺失的问题。(The invention relates to a Vietnamese news event detection method based on Chinese trigger word guidance, and belongs to the technical field of natural language processing. The method comprises the steps of firstly mapping two languages to the same semantic space by adopting an antagonistic learning method, then integrating entity information in the encoding process, embedding the mapped Chinese trigger words into a guidance model by an attention mechanism to pay attention to the trigger word information in Vietnamese news, and finally performing multi-classification of event types by using the obtained trigger word information so as to realize the detection of the Vietnamese news events. The invention needs to identify the trigger words in news in the event detection at present, has no Vietnamese trigger word marking corpus at present, and can solve the problem of the deficiency of the Vietnamese marking corpus by using rich Chinese marking corpus.)

基于中文触发词指导的越南语新闻事件检测方法

技术领域

本发明涉及基于中文触发词指导的越南语新闻事件检测方法,属于自然语言处理技术领域。

背景技术

事件检测是当前自然语言处理研究的热点问题。触发词的识别在事件检测任务中起着至关重要的作用。目前越南语数据稀缺,并且越南语没有触发词标记数据, 检测出越南语新闻中的事件比较困难。因此,根据表达相同观点但用不同语言表达 的句子通常有相同或相似的语义成分这一特征,使用丰富的中文触发词标记解决越 南语触发词标记缺失问题具有重要意义。

发明内容

本发明提供了基于中文触发词指导的越南语新闻事件检测方法,以用于解决目前越南语数据稀缺,没有越南语触发词标记语料问题,以及解决了不同语言文本很 难表示在同一特征空间下等问题。

本发明的技术方案是:基于中文触发词指导的越南语新闻事件检测方法,所述 基于中文触发词指导的越南语新闻事件检测方法的具体步骤如下:

Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;

Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本 中的事件类型以及中文触发词,将标记好的越南语新闻语料分为训练语料、测试语 料和验证语料;

Step3、采用对抗学习的方法将中越两种语言映射到同一语义空间下,抽取出映射后的中文触发词词向量;

Step4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用 BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导 模型找到越南语句子中的触发词信息;

Step5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。

作为本发明的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用 户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路 径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。

作为本发明的进一步方案,所述步骤Step2的具体步骤为:

Step2.1、参考ACE的事件标注体系标记出中文新闻文本中的触发词和事件类型、越南语新闻文本中的事件类型,将事件类型分为七种类型,分别为 和“xúc”、“Giao”、“xung” 关系;

Step2.2、再将实验数据分为训练语料、测试语料和验证语料。

作为本发明的进一步方案,所述步骤Step3的具体步骤:

Step3.1、采用skip-gram扩展模型的方法预测目标词在中文中的上下文信息,同时预测目标词在越南语中对齐词的上下文信息,从而得到中越双语词向量;

Step3.2、使用映射函数将中文投影到与越南语相同的语义空间中,使用随机梯度下降的方法依次训练单词鉴别器和映射函数;

Step3.3、给定中文新闻文本并标记句子中的触发词。

作为本发明的进一步方案,所述步骤Step4采用BiLSTM获取越南语新闻的语 义信息的具体步骤为:

Step4.1、在越南语语料上预训练越南语词向量,得到词向量词表,利用underthesea工具中的实体标记类型为每种实体标记都随机初始化一个实体向量,得 到实体向量词表,通过查找词向量词表和实体向量词表,所有的输入单词和实体标 记都转化为低维向量;

Step4.2、将词向量和实体向量拼接起来作为BiLSTM的输入,用来捕获句子中 的语义信息。

作为本发明的进一步方案,所述步骤Step5的具体步骤为:将提取到的越南语句子中的触发词输入至分类层,采用softmax分类器对越南语新闻句进行事件类型的分 类,从而实现越南语新闻事件检测。

本发明的有益效果是:

1、本发明的基于中文触发词指导的越南语新闻事件检测方法,利用对抗学习的方法将两种语言映射到同一语义空间中,使用映射函数将中文无限接近于越南语, 直到判别器判别不出两种语言,然后抽取出映射后的中文触发词词向量;

2、本发明的基于中文触发词指导的越南语新闻事件检测方法,使用BiLSTM来 挖掘事件句的上下文隐含语义信息,通过注意力机制将映射后的中文触发词指导模 型找到越南语句子中的触发词信息,最后利用得到的注意力上下文向量进行事件类 型的多分类。

3、本发明的基于中文触发词指导的越南语新闻事件检测方法,结合双语一致性特点,使用丰富的中文触发词标记可以找到越南语新闻句中触发词信息,并通过 softmax层进行分类;

4、本发明的基于中文触发词指导的越南语新闻事件检测方法,解决了越南语事件检测任务中触发词缺失的问题。

附图说明

图1为本发明提出的基于中文触发词指导的越南语新闻事件检测流程图;

图2为本发明提出的基于中文触发词指导的越南语新闻事件检测模型图。

具体实施方式

实施例1:如图1-2所示,基于中文触发词指导的越南语新闻事件检测方法,具 体步骤如下:

Step1、收集用于中越双语相关新闻事件检测的新闻文本;先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对 应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本 和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;

作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户 操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径 制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。

此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本 发明识别事件时序关系提供了数据支撑。

Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本 中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8∶1:1的比例分 配训练语料、测试语料和验证语料;

Step3、采用对抗学习的方法将中越两种语言映射到同一语义空间下。抽取出映射后的中文触发词词向量;

Step4、获取越南语词向量融合句中实体向量作为BiLSTM层的输入;采用 BiLSTM获取越南语新闻句的语义信息,通过注意力机制将映射后的中文触发词指导 模型找到越南语句子中的触发词信息;

Step5、最后利用得到的触发词信息进行事件类型的多分类,进而实现越南语新闻事件检测。

作为本发明的优选方案,所述步骤Step2的具体步骤为:

Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定 制的中越双语相关新闻事件,标记出中文触发词及中越新闻文本中的事件类型;

Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条 新闻句;

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

作为本发明的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为 “(访问)”、“(会见)”和“xúc(合作)”、“kinh(经 济)”、“Thay(换届)”、“Giao(贸易)”、“xung(冲突)”关系。

作为本发明的优选方案,所述步骤Step3的具体步骤:

Step3.1、采用skip-gram扩展模型的方法预训练出中文词向量 和越南语词向量其中E和N分别是词表大小。 ds和dz分别表示的是中文词向量维度和越南语词向量维度。然后使用映射函数f将中 文投影到与越南语相同的语义空间中:

其中是映射矩阵。是投影后的中文词向量。

约束转换矩阵U与奇异值分解(SVD)正交,以减少参数搜寻空间:

Step3.2、为了优化映射函数f,引入一个多层感知机作为词鉴别器,使用越南语词向量和映射后的中文词向量作为输入,输出单个标量。表示来自于越南语 词表的概率。词鉴别器使用二元交叉熵损失:

yi=δi(1-2∈)+∈ ⑷

其中,δi=1表示单词是来自于z,δi=0表示单词是来自于s。Is;z表示从z和s的词汇表中一起采样出的单词的个数。∈是添加到正负标签的平滑值。

映射函数f和单词鉴别器D是两个对抗层,翻转单词标签,通过最小化损失来优化:

yi=δi(1-2∈)+∈ ⑹

采用对抗学习的方法来将两种语言映射到同一语义空间下,使用随机梯度下降(SGD)依次训练单词鉴别器和映射函数,以最小化

Step3.3、给定中文新闻文本并标记句子中的触发词。通过映射矩阵将中文触发词映射到与越南语语言同一语义空间下,所有映射后的中文触发词转化为一组映射 向量G={g1,g2,…gm}用于捕获越南语句子中隐藏的触发词。

此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,结合双语词向量,将两种语言映射到同一语义空间下。为下面的映射后的中文触发 词指导模型找到越南语句子中的触发词作铺垫。

作为本发明的优选方案,本发明利用中文触发词信息通过注意力机制增强越南语新闻句子中的触发词语义信息,其中:

所述步骤Step4采用BiLSTM获取越南语新闻的语义信息的具体步骤为:

Step4.1、给定一个包含n个词的越南语新闻句S={w1,w2,…wn},对于S中的每一个词,wi都被underthesea标记出实体类型ei。然后通过词向量词表查询到wi对 应的词向量并且通过实体向量词表查询到ei对应的实体向量最后,将 词向量与实体向量拼接起来作为wi最终的向量表示Vi:

将S中的每个词wi都按照上述方式表示成向量vi,用运算符进行向量方向的拼接操作,则句子S的语义表示矩阵Ms为:

Step4.2、将词向量和实体向量拼接起来作为BiLSTM的输入,用来捕获句子中 的语义信息。

作为本发明的优选方案,所述根据在同一新闻主题环境下不同语言具有一致性的特征,采用可标记的中文触发词信息指导找出越南语新闻文本中的触发词信息;

所述BiLSTM:

使用BiLSTM对句子进行建模,运行在单词和实体嵌入的连接序列上。双向 BiLSTM可以看作两个单向的LSTM,包含正向的LSTM和逆向LSTM,使当前时刻 的输出能与前一时刻的状态和后一时刻的状态都产生联系。

将越南语新闻句子中的每个词的词向量按顺序输入BiLSTM单元构成的神经网 络中,得到句子的隐层向量h={h1,h2,…hn},hi是句子中第i个词的隐层向量表示。在 这一阶段的每个步骤中,前向BiLSTM在t时刻的输入wt和先前隐状态向量ht-1计算当 前的隐状态向量接着反向运行BiLSTM来生成后向隐层向量表示

前向的LSTM与后向的LSTM结合组成BiLSTM。与LSTM不同的是,输入层 的数据会经过向前和向后两个方向进行推算,最后输出的隐含状态再进行拼接,再 作为下一层的输入。

所述注意力机制:

每种类型的事件通常由一组特定的词触发,这些词称为事件触发词。例如,“xung(冲突)”事件通常是由“对抗”、“袭击”等词触发的。因此,事件触发词是 完成事件检测任务的重要线索。根据一组中文触发词向量G={g1,g2,…gm}和 BiLSTM产生的隐藏状态h={h1,h2,…hn},计算每个触发词向量gi(i=1,2,…m)与 隐藏状态h之间得注意力权重,得到一组注意力权重向量α={α1,…,αm}。具体来说, 给定G中第k个中文触发词向量gk与t时刻的隐藏状态ht之间的注意力权重由公式(10) 计算,在这个模型中,越南语新闻目标事件类型的触发词期望获得比其他词更高的 权重。

计算完gk与所有时刻的隐藏状态h={h1,h2,…,hn}之间的注意力权重后,得到 一个注意力权重向量αk=[α12,…,αn]。遍历完G={g1,g2,…,gm},则得到一组注意 力权重向量α={α12,…,αm}。然后,求取这一组权重向量中,权重最大的元素所 在的那一个向量作为当前输入句子的最终注意力权重向量,记为 αmax=[α12,…,αn]。因为对于G中的·每一个中文触发词向量与当前输入句子最 相关的词向量求得更大的注意力权重。

最后,将αmax与h进行加权求和,即可得到当前输入句子的向量表示Satt,如公 式(11):

Satt=∑iαihi (11)

其中i=1,2,…n。

此优选方案设计提出融入中文触发词指导越南语找到触发词信息,进而分类到事件类型。BiLSTM可以从正反两个方向提取信息,不仅解决了长距离依赖问题,更 加有效的挖掘事件句的隐含语义信息。注意力机制添加了触发词在当前事件的权重, 使得越南语事件检测任务达到了最佳的效果。

作为本发明的优选方案,所述步骤Step5的具体步骤为:将提取到的越南语触发词信息输入至分类层,采用softmax分类器对越南语新闻事件进行分类,从而实现越 南语新闻事件检测。

作为本发明的优选方案,通过中文和越南语相关新闻报道可以将事件类型分为七类。

作为本发明的优选方案,将当前输入句子的向量表示Satt输入softmax层,得到 待预测事件类型的概率分布P:

P=softmax(W·Satt+b) (12)

其中,W和b分别为softmax层的权重和偏置。

此优选方案设计中文触发词具有一定的约束作用,有助于更好的识别事件时序关系。

Step6、分别对编码特征、有无中文触发词进行实验探究,证明模型设置的合理 性与高效性,又将该模型与现有模型进行对比,证明本方法在越南语事件检测上具 有较好效果。

实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。

Precision(P):正确预测的事件在总预测事件中所占的比例。

Recall(R):正确预测的事件在真实事件中所占的比例。

为验证文本模型是否能提升事件检测的效果,设置了第一组实验。该模型在越 南语新闻数据集上将本文模型与CNN模型、GCN模型进行比较、在不标记触发词 的基础上与基线模型(TBNNAM)做了对比。实验结果如表1所示:

表1为不同模型性能对比

通过对比实验可知,LSTM的模型效果优于CNN,主要是由于LSTM可以解决训 练过程中的梯度消失和梯度爆炸问题。TBNNAM模型中LSTM最后一个状态所捕获 的全局信息对该任务也很重要,这种由注意力机制捕获的全局信息和局部信息是互 补的。但是本文使用的BiLSTM相比于LSTM,能够捕获句子中更多的语义信息。 实验结果表明,本文模型效果更好。

针对词嵌入层融入的编码特征进行探究,为了验证将实体信息融入词向量是否能提升事件检测的效果,设置了第二组实验。该实验对比了加入实体前后对模型的 影响。实验结果如表2所示:

表2为编码特征对模型性能的影响

通过对比实验可知,实体的标注可以捕捉词语的语义信息。加入实体向量之后,模型的准确率、召回率、F值与本文模型相比均有所上升,也就证明了加入实体向量 后可以提高事件检测的性能。

由于越南语的复杂性,难以对句子进行触发词的标记,为了验证融入中文触发 词是否能提升事件检测的效果,设置了第三组实验。该实验对有无中文触发词对事 件检测的效果作了对比,实验结果如表3所示:

表3为中文触发词指导的模型性能对比

通过对比实验可知,有触发词标记的效果明显优于无触发词标记的效果。不同 的语言对于同一新闻事件句而言具有一致性,使用中文触发词可以找到对应的越南 语句子中的触发词,进而完成越南新闻的事件检测。

从以上数据可以看出,融入实体信息可以更好的捕获句子的语义信息,利用中 文触发词指导模型找到越南语句子中的触发词信息,进而实现越南语新闻事件检测。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:政策文本的知识图谱构建方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!