一种基于深度学习的盲文转中文方法

文档序号:1004216 发布日期:2020-10-23 浏览:7次 >En<

阅读说明:本技术 一种基于深度学习的盲文转中文方法 (Method for converting braille into Chinese based on deep learning ) 是由 于红雷 邹可 孙俊伟 于 2020-05-28 设计创作,主要内容包括:本发明公开了一种基于深度学习的盲文转中文方法。它具体包括如下步骤:(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。本发明的有益效果是:达到高精准度文本翻译结果。(The invention discloses a method for converting braille into Chinese based on deep learning. The method specifically comprises the following steps: (1) preprocessing the Braille text: carrying out encoding normalization processing on the braille by the braille text preprocessing; (2) constructing a deep learning algorithm model: the deep learning algorithm model learns the coded text rule; (3) training a deep learning model: translating corresponding Chinese content through a deep learning model; (4) text error correction: and further correcting the wrongly written characters in the braille in the text error correction unit. The invention has the beneficial effects that: and a high-precision text translation result is achieved.)

一种基于深度学习的盲文转中文方法

技术领域

本发明涉及深度学习相关技术领域,尤其是指一种基于深度学习的盲文转中文方法。

背景技术

盲文或称点字、凸字,是专为盲人设计、靠触觉感知的文字。透过点字板、点字机、点字打印机等在纸张上制作出不同组合的凸点而组成,一般每一个方块的点字是由六点组成,左侧从上到下为123,右侧为456,叫一方。它是由法国盲人路易·布莱尔于1824年创造的,故国际上通称为“布莱尔(Braille)”。

现有的盲文转中文的操作方式中,只是简单的对盲文进行一对一的中文字符转化,导致转化过来的中文往往存在错别字、语句不通顺或者翻译不正确,这样的转化方式导致盲文的文本转化率大大降低,准确率也不高。

发明内容

本发明是为了克服现有技术中存在上述的不足,提供了一种高精准度的基于深度学习的盲文转中文方法。

为了实现上述目的,本发明采用以下技术方案:

一种基于深度学习的盲文转中文方法,具体包括如下步骤:

(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;

(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;

(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;

(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。

本发明通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。

作为优选,在步骤(1)中,盲文文本预处理的具体方法如下:

(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;

(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;

(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。

作为优选,在步骤(12)中,盲文句子进行编码的具体方法如下:

(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;

(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。

作为优选,在步骤(2)中,深度学习模型构建的具体方法如下:

(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;

(22)用cnn网络提取句子的语法信息和单词前后关联信息;

(23)用双向lstm网络提取整个句子的句法结构信息;

(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。

作为优选,在步骤(22)中,具体操作方法如下:

(221)该cnn网络的输入是经过词嵌入编码后的词向量;

(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。

作为优选,在步骤(3)中,训练深度学习模型的具体方法如下:

(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;

(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;

(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;

(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。

本发明的有益效果是:通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。

具体实施方式

下面结合具体实施方式对本发明做进一步的描述。

一种基于深度学习的盲文转中文方法,具体包括如下步骤:

(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;盲文文本预处理的具体方法如下:

(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;

(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;盲文句子进行编码的具体方法如下:

(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;

(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。

(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。

(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;深度学习模型构建的具体方法如下:

(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;

(22)用cnn网络提取句子的语法信息和单词前后关联信息;具体操作方法如下:

(221)该cnn网络的输入是经过词嵌入编码后的词向量;

(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。

(23)用双向lstm网络提取整个句子的句法结构信息;

(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。

(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;训练深度学习模型的具体方法如下:

(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;

(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;

(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;

(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。

(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。

通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。

5页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种网络图的绘制系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!