一种基于深度学习的盲文转中文方法
阅读说明:本技术 一种基于深度学习的盲文转中文方法 (Method for converting braille into Chinese based on deep learning ) 是由 于红雷 邹可 孙俊伟 于 2020-05-28 设计创作,主要内容包括:本发明公开了一种基于深度学习的盲文转中文方法。它具体包括如下步骤:(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。本发明的有益效果是:达到高精准度文本翻译结果。(The invention discloses a method for converting braille into Chinese based on deep learning. The method specifically comprises the following steps: (1) preprocessing the Braille text: carrying out encoding normalization processing on the braille by the braille text preprocessing; (2) constructing a deep learning algorithm model: the deep learning algorithm model learns the coded text rule; (3) training a deep learning model: translating corresponding Chinese content through a deep learning model; (4) text error correction: and further correcting the wrongly written characters in the braille in the text error correction unit. The invention has the beneficial effects that: and a high-precision text translation result is achieved.)
技术领域
本发明涉及深度学习相关技术领域,尤其是指一种基于深度学习的盲文转中文方法。
背景技术
盲文或称点字、凸字,是专为盲人设计、靠触觉感知的文字。透过点字板、点字机、点字打印机等在纸张上制作出不同组合的凸点而组成,一般每一个方块的点字是由六点组成,左侧从上到下为123,右侧为456,叫一方。它是由法国盲人路易·布莱尔于1824年创造的,故国际上通称为“布莱尔(Braille)”。
现有的盲文转中文的操作方式中,只是简单的对盲文进行一对一的中文字符转化,导致转化过来的中文往往存在错别字、语句不通顺或者翻译不正确,这样的转化方式导致盲文的文本转化率大大降低,准确率也不高。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种高精准度的基于深度学习的盲文转中文方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;
(2)深度学习算法模型构建:深度学习算法模型学习编码后的文本规律;
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
本发明通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
作为优选,在步骤(1)中,盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
作为优选,在步骤(12)中,盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
作为优选,在步骤(2)中,深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
作为优选,在步骤(22)中,具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
作为优选,在步骤(3)中,训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
本发明的有益效果是:通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
一种基于深度学习的盲文转中文方法,具体包括如下步骤:
(1)对盲文文本预处理:盲文文本预处理对盲文做编码归一化处理;盲文文本预处理的具体方法如下:
(11)对于盲文句子,根据盲文的特点,每一个中文字符对应的盲文都采用三方对齐表示,不足三方的用数字0填充表示;
(12)对填充对齐后的盲文句子进行编码,转换成十进制编码字符串,编码后的字符串映射到0到63的编码空间,每个编码后的十进制数对应一个0到63的数字;盲文句子进行编码的具体方法如下:
(121)对每一个盲文点方所代表的数字集合,对每一个数字进行计算,其中N表示盲文点方中每一个点代表的数字;
(122)每一个盲文点方对所有的数字进行计算,然后求和,计算所得的数字就是编码后的值。
(13)将每个编码后的十进制数替换成0到63对应的十进制数字,替换后的数字序列就是预处理的最终结果。
(2)深度学习模型构建:深度学习算法模型学习编码后的文本规律;深度学习模型构建的具体方法如下:
(21)对编码后的盲文句子进行词嵌入编码,输出词嵌入编码后的词向量;
(22)用cnn网络提取句子的语法信息和单词前后关联信息;具体操作方法如下:
(221)该cnn网络的输入是经过词嵌入编码后的词向量;
(222)词向量经过三层一维卷积神经网络,每一层的卷积核依次为7、5、3,用于提取不同长度句子中的语法信息和单词前后关联信息。
(23)用双向lstm网络提取整个句子的句法结构信息;
(24)步骤(23)作为网络的输出,通过交叉熵作为损失函数loss。
(3)训练深度学习模型:通过深度学习模型翻译出对应的中文内容;训练深度学习模型的具体方法如下:
(31)收集不同领域的中文文本,进行文本清洗,按句子分割,按照《国家通用盲文》规则,生成中盲对齐语料;
(32)根据步骤(1)所述的文本预处理算法,对中盲对齐语料中的盲文进行编码;
(33)将常用汉字做成词典,对中盲对齐语料中的中文句子进行编码;
(34)中盲对齐语料中的盲文语句作为深度学习模型的input,中文句子作为深度学习模型的output。
(4)文本纠错:在文本纠错单元对盲文中的错别字进一步纠错。
通过盲文文本预处理对算法输入部分做编码归一化处理,然后经过深度学习模型学习编码后的文本规律,经过训练深度学习模型翻译出对应的中文内容,最后在经过文本纠错单元对错别字进一步纠错,达到高精准度文本翻译结果。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种网络图的绘制系统及方法