一种中文词向量建模方法

文档序号:1378985 发布日期:2020-08-14 浏览:5次 >En<

阅读说明:本技术 一种中文词向量建模方法 (Chinese word vector modeling method ) 是由 王君君 于 2020-04-21 设计创作,主要内容包括:本发明属于向量建模领域,尤其是一种中文词向量建模方法,针对现有中文词向量建模方法都只是简单引入部首笔画等信息同时无法对未登录词进行合理的表示,不能够自动更新语句,跟不上时代潮流,智能化程度低,导致使用不便的问题,现提出如下方案,其包括以下步骤:S1:获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号;S2:对各类型中的语料基础依次进行B类编号;S3:将编号映射到向量空间中,本发明能够对未登录词进行合理的表示,且能够自动更新语句,跟上时代潮流,智能化程度高,使用方便。(The invention belongs to the field of vector modeling, in particular to a Chinese word vector modeling method, which aims at solving the problems that the existing Chinese word vector modeling methods simply introduce information such as radical strokes and the like, cannot reasonably express unknown words, cannot automatically update sentences, cannot keep up with the trend of the times, has low intelligent degree and causes inconvenient use, and provides the following scheme, which comprises the following steps: s1: acquiring a corpus basis of the morphological-acoustic characteristics of Chinese words, classifying the corpus basis, and numbering the types in A class; s2: b-class numbering is carried out on the corpus bases in each type in sequence; s3: the invention can reasonably express the unknown words and automatically update the sentences by mapping the numbers into the vector space, thereby keeping up with the trend of the times, having high intelligent degree and convenient use.)

一种中文词向量建模方法

技术领域

本发明涉及向量建模技术领域,尤其涉及一种中文词向量建模方法。

背景技术

词向量已经成为任何基于深度学习自然语言处理系统的重要组成部分。自然语言处理系统在固定长度的密集向量中编码单词和语句,从而通过神经网络极大地改进文本数据的处理。

现有中文词向量建模方法都只是简单引入部首笔画等信息同时无法对未登录词进行合理的表示,不能够自动更新语句,跟不上时代潮流,智能化程度低,导致使用不便。

因此,我们提出了一种中文词向量建模方法用于解决上述问题。

发明内容

本发明提出的一种中文词向量建模方法,解决了现有中文词向量建模方法都只是简单引入部首笔画等信息同时无法对未登录词进行合理的表示,不能够自动更新语句,跟不上时代潮流,智能化程度低,导致使用不便的问题。

为了实现上述目的,本发明采用了如下技术方案:

一种中文词向量建模方法,包括以下步骤:

S1:获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号;

S2:对各类型中的语料基础依次进行B类编号;

S3:将编号映射到向量空间中;

S4:针对语料基础构建基础模型;

S5:输入中文词语,检测出语句长度,并检测中文词语中语料基础;

S6:将检测出的语料基础转换为编号,并判断转换结果;

S7:将编号映射到向量空间中实数向量;

S8:对中文词语的语料基础进行分词处理,检测结果;

S9:将分词处理结果输入基础模型中;

S10:完成中文词向量建模。

优选的,所述S1中,语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法。

优选的,所述S1中,获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号,并存储至存储器A中。

优选的,所述S2中,对各类型中的语料基础依次进行B类编号,同时将各类型中相互对应的B类编号联系起来,并存储至存储器B中。

优选的,所述S3中,将编号映射到向量空间中,并将结果存储至存储器C中。

优选的,所述S4中,针对语料基础构建基础模型,并将基础模型分别与存储器A、存储器B和存储器C联系起来。

优选的,所述S6中,将检测出的语料基础转换为编号,并判断转换结果,调取存储器A、存储器B和存储器C的存储数据,与转换结果一一对应进行判断。

优选的,所述S8中,建立分词处理数据库,并自动更新,根据分词处理数据库对中文词语的语料基础进行分词处理,检测结果。

优选的,所述S9中,将分词处理结果输入基础模型中,基础模型根据分词处理数据库、存储器A、存储器B、存储器C和语句长度检测自动优化。

与现有技术相比,本发明的有益效果是:

1、由于通过对语料基础进行分类,同时对语料基础进行编号,并将相互对应的联系起来,能够大幅度提高准确性;

2、由于建立分词处理数据库,并自动更新,能够自动更新语句,跟上时代潮流;

3、由于与转换结果一一对应进行判断,能够进一步提高准确性。

本发明能够对未登录词进行合理的表示,且能够自动更新语句,跟上时代潮流,智能化程度高,使用方便。

附图说明

图1为本发明提出的一种中文词向量建模方法的原理框图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

实施例一

参照图1,一种中文词向量建模方法,包括以下步骤:

S1:获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号;

S2:对各类型中的语料基础依次进行B类编号;

S3:将编号映射到向量空间中;

S4:针对语料基础构建基础模型;

S5:输入中文词语,检测出语句长度,并检测中文词语中语料基础;

S6:将检测出的语料基础转换为编号,并判断转换结果;

S7:将编号映射到向量空间中实数向量;

S8:对中文词语的语料基础进行分词处理,检测结果;

S9:将分词处理结果输入基础模型中;

S10:完成中文词向量建模。

本实施例中,所述S1中,语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法;所述S1中,获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号,并存储至存储器A中。

本实施例中,所述S2中,对各类型中的语料基础依次进行B类编号,同时将各类型中相互对应的B类编号联系起来,并存储至存储器B中;所述S3中,将编号映射到向量空间中,并将结果存储至存储器C中;所述S4中,针对语料基础构建基础模型,并将基础模型分别与存储器A、存储器B和存储器C联系起来;所述S6中,将检测出的语料基础转换为编号,并判断转换结果,调取存储器A、存储器B和存储器C的存储数据,与转换结果一一对应进行判断。

实施例二

参照图1,一种中文词向量建模方法,包括以下步骤:

S1:获取中文词语形声特征的语料基础,并对其进行分类,同时对类型进行A类编号;

S2:对各类型中的语料基础依次进行B类编号;

S3:将编号映射到向量空间中;

S4:针对语料基础构建基础模型;

S5:输入中文词语,检测出语句长度,并检测中文词语中语料基础;

S6:将检测出的语料基础转换为编号,并判断转换结果;

S7:将编号映射到向量空间中实数向量;

S8:对中文词语的语料基础进行分词处理,检测结果;

S9:将分词处理结果输入基础模型中;

S10:完成中文词向量建模。

本实施例中,所述S8中,建立分词处理数据库,并自动更新,根据分词处理数据库对中文词语的语料基础进行分词处理,检测结果;所述S9中,将分词处理结果输入基础模型中,基础模型根据分词处理数据库、存储器A、存储器B、存储器C和语句长度检测自动优化。

本实施例中,由于通过对语料基础进行分类,同时对语料基础进行编号,并将相互对应的联系起来,能够大幅度提高准确性;由于建立分词处理数据库,并自动更新,能够自动更新语句,跟上时代潮流;由于与转换结果一一对应进行判断,能够进一步提高准确性;本发明能够对未登录词进行合理的表示,且能够自动更新语句,跟上时代潮流,智能化程度高,使用方便。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种确定敏感信息的方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!