一种汉字拼音到盲文ascii码的转换方法

文档序号:361614 发布日期:2021-12-07 浏览:3次 >En<

阅读说明:本技术 一种汉字拼音到盲文ascii码的转换方法 (Method for converting Chinese pinyin into Braille ASCII codes ) 是由 王丹英 杨文珍 于 2020-06-07 设计创作,主要内容包括:本发明公开了一种汉字拼音到盲文ASCII码的转换方法。汉字拼音转换为盲文ASCII码是汉语盲文计算机翻译系统的核心技术之一。由于每个汉字拼音都有韵母,本发明还发现了所有韵母的首字符均不同于声母的字符这一客观事实,创新提出一种标志位汉字拼音切分算法,得到每个汉字的声母、韵母、声调。进而,本发明提出一种三元素汉字拼音匹配盲文ASCII码算法,得到每个汉字的盲文ASCII码。本发明不仅高效实现了汉字拼音到盲文ASCII码的转换,而且为解决汉语盲文的标调问题提供了重要技术,也为国家通用盲文的数字化奠定基础。(The invention discloses a method for converting pinyin of Chinese characters into Braille ASCII codes. The conversion of Chinese pinyin to Braille ASCII codes is one of the core technologies of Chinese Braille computer translation systems. Because each Chinese character pinyin has a vowel, the invention also discovers the objective fact that the first characters of all vowels are different from the characters of the initial consonants, innovatively provides a flag bit Chinese character pinyin segmentation algorithm, and obtains the initial consonant, the vowel and the tone of each Chinese character. Furthermore, the invention provides a three-element Chinese character pinyin matching Braille ASCII code algorithm to obtain Braille ASCII codes of each Chinese character. The invention not only realizes the conversion from Chinese pinyin to Braille ASCII code with high efficiency, but also provides an important technology for solving the problem of the tone marking of Chinese Braille and lays a foundation for the digitalization of national universal Braille.)

一种汉字拼音到盲文ASCII码的转换方法

技术领域

本发明涉及一种盲文ASCII码转换方法,尤其是一种汉字拼音到盲文ASCII码的转换方法。

背景技术

盲文又称为点字,是专门为盲人设计、靠触觉来感知的一种特殊文字,是盲人摸读和书写的文字符号。目前,国际通用的一个盲文点字由三行两列的6个点按一定的规律排列组合而成,有 64种表现形式,称为一“方”。

中国盲文以中文汉字为基础,以拼音为基础呈现的文字。一个汉字的盲文字由一个声母方、一个韵母方和一个声调方组成,也可以无声母方或无声调方。长期以来,中国大陆的盲文并存有现行盲文和双拼盲文,以现行盲文为主。现行盲文“必要时标调”的规定导致现行盲文的标调率极低,且标调规则随意繁杂,往往掺杂了大量的主观判断,在遇到多音字时,盲人需要猜测声调,大大降低了摸读效率。为了解决现行盲文这一先天缺陷,近年来,我国正在大力推广国家通用盲文。它采用全标调的策略,较好消除声调不明确带来的歧义,方便盲人更加精确地摸读盲文。

随着计算机技术的发展,盲文的数字化成为必然。盲文ASCII码是国际标准信息交换码ASCII码的子集,取32-95之间的64个与64种盲文点字分别一一对应。盲文ASCII码已成为盲文电脑设备的标准码,广泛用于数字化盲文的软硬件系统。

在信息时代的今天,无论现行盲文、双拼盲文,还是国家通用盲文,都必须解决汉字盲文数字化问题,建立汉语盲文计算机翻译系统。其中,汉字拼音转换为盲文ASCII码是汉语盲文计算机翻译系统的核心技术之一。计算机算法实现汉字拼音的盲文ASCII码转换关键在于处理拼音和盲文ASCII码之间的映射关系。

2010年,专利“一种汉语到盲文的自动翻译转换方法”(CN1591414B)指出可以根据盲文的拼法和标调规则将组合后的词块转换为盲文点字,没有公开拼音转换盲文点字的具体方法。2011年,文献“汉字盲文转换系统的设计”(杨潮等)进而指出可以用逐个拼音查找对应的盲文拼音码,组成盲文文本,但是没有说明具体转换算法。2016年,文献“视障汉语转换软件SunBraille的设计实现”(吕先超等)中又进一步提到可通过 split(“,”)函数对拼音串进行切分,得到标调,分别用 1,2,3,4,5 表示阴平、阳平、上声、去声和无声,再设计出相应的拼音到盲文ASCII码的转换词典,将拼音转换为盲文ASCII 码。2017年,专利“一种汉文到盲文的自动高效翻译转换方法”(CN201710550659.8)更进一步提到对汉字拼音串进行音素的识别和分割提取,分为整体认读音节、声母和韵母,利用自建的音素盲文对照表,得到每个音素对应的6位符号性盲文编码。

文献“汉字盲文转换系统的设计”和文献“视障汉语转换软件SunBraille的设计实现”都不切分声母和韵母,采用逐个拼音查找方法,需要遍历庞大的汉字拼音库和拼音到盲文ASCII码的转换词典,计算量非常大,转换效率低。专利“一种汉文到盲文的自动高效翻译转换方法”采用正向最大匹配算法,对汉字拼音串进行音素的识别和分割提取,以从长到短的步长将拼音串中的拼音字母与音素盲文对照表中的音素进行逐一匹配,获得是否匹配的结果,初始步长取该拼音串的字母总数;若在最大步长下匹配成功,则终止匹配,若否,则修改步长,以最长声母的两个字母的步长预匹配,当匹配成功后,则对剩余字母直接进行韵母匹配,分为整体认读音节、声母和韵母。虽然正向最大匹配算法比逐个拼音查找方法的计算效率要高,但是难以同时切分出声母、韵母和声调,不利于解决现行盲文的先天缺陷,也不利于国家通用盲文的数字化。

发明内容

为了克服上述现有技术的不足,本发明提供了一种汉字拼音到盲文ASCII码的转换方法。

本发明所采用的技术方案。

一种汉字拼音到盲文ASCII码的转换方法,包括一种标志位汉字拼音切分算法和一种三元素汉字拼音匹配盲文ASCII码算法;对于可能包含声母、韵母和声调的每个汉字拼音字符串,标志位汉字拼音切分算法在所有韵母的首字符均不同于声母的字符这一客观事实上,建立韵母首字符表和声母字符表,从韵母角度寻找标志位Pos,切分出拼音字符串的声母、韵母和声调;进而,分别查找声母、韵母和声调的盲文ASCII码对应字典,三元素汉字拼音匹配盲文ASCII码算法分别得到声母的盲文ASCII码、韵母的盲文ASCII码或声调的盲文ASCII码,按次序组合出汉字的盲文ASCII码。

所述的一种标志位汉字拼音切分算法,详细步骤包括1)读入一个汉字的拼音字符串;2)如果此拼音字符串为空,在消息窗口提示当前字符返回拼音为空;3)如果此拼音字符串不为空,从拼音字符串的第一位字符开始判断当前字符是否属于韵母首字符表中的字符,若是,则把当前字符位置作为切分声母和韵母的标志位Pos,若不是,则选取此拼音字符串中的下一个字符继续判断,直到找到拼音字符串中韵母的第一个字符为止;4)如果Pos等于0,可以得到此拼音字符串的声母为空,韵母为拼音字符串第一位字符到倒数第二位字符,声调为拼音字符串的最后一位字符;5)如果Pos不等于0,可以得到此拼音字符串的声母为第一位字符到标志位Pos,韵母为标志位Pos到倒数第二位字符,声调为最后一位字符。

所述的建立韵母首字符表和声母字符表,详细步骤包括1)从汉字拼音的24个韵母a,o,e,i,u,ü,ai,ei,uei(ui),ao,ou,iou(iu),ie,üe,er,an,en,in,uen(un),ün,ang,eng,ing,ong中提取得到韵母首字符表,见表1;2)从汉字拼音的23个声母b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch, sh,r,z,c,s,y,w中提取得到声母字符表,见表2;3)对比韵母首字符表和声母字符表,发现所有韵母的首字符均不同于声母的字符,标志位汉字拼音切分算法遍历拼音字符串中的所有字符,找到韵母的首字符,作为切分声母和韵母的标志位Pos。

表1韵母首字符表。

韵母的首字符 a o e i u ü

表2 声母字符表。

声母的字符 b p m f d t n l g k h j q x r z c s y w

所述的三元素汉字拼音匹配盲文ASCII码算法,详细步骤包括1)如果声母为空,输出空盲文ASCII码;2)如果声母不为空,查找声母盲文ASCII码对应字典,见表3,输出此声母的盲文ASCII码;3)如果韵母为空,输出空盲文ASCII码;4)如果韵母不为空,查找韵母盲文ASCII码对应字典,见表4,输出此韵母的盲文ASCII码;5)查找声调盲文ASCII码对应字典,见表5,输出此声调的盲文ASCII码;6)按声母盲文ASCII码、韵母盲文ASCII码和声调盲文ASCII码的前后次序,组合出一个汉字的盲文ASCII码。

表3 声母盲文ASCII码对应字典。

表4 韵母盲文ASCII码对应字典。

表5 声调盲文ASCII码对应字典。

与现有技术相比,本发明的有益效果。

(1)有的现有技术把一个汉字的拼音字符串分为拼音和声调,有的现有技术把一个汉字的拼音字符串分为整体认读音节、声母和韵母。这些技术得到的结果不符合一个汉字的盲文字由一个声母方、一个韵母方和一个声调方组成规则。本发明把一个汉字的拼音字符串切分出声母、韵母、声调,完全符合一个汉字的盲文字由一个声母方、一个韵母方和一个声调方组成规则。

(2)相对于逐个拼音查找方法和正向最大匹配算法等现有技术,本发明所提出的标志位汉字拼音切分算法是基于发明人发现所有韵母的首字符均不同于声母的字符这一客观事实,创造性建立了韵母首字符表和声母字符表,只要遍历韵母首字符表的6个字符,就可以把一个汉字的拼音字符串切分出声母、韵母和声调,计算量很小,提高了汉字拼音到盲文ASCII码的转换效率。

(3)在标志位汉字拼音切分算法得到的声母、韵母和声调结果基础上,本发明提出一种三元素汉字拼音匹配盲文ASCII码算法,可以方便地组合出汉字的盲文ASCII码,有效解决汉语盲文的标调问题,符合国家通用盲文的数字化要求。

附图说明

图1是本发明的标志位汉字拼音切分算法流程图。

图2是本发明的三元素汉字拼音匹配盲文ASCII码算法流程图。

具体实施方式

下面结合附图对本发明进一步说明。

一个汉字的拼音字符串可以由声母、韵母和声调组成。汉字拼音的声母有23个,韵母有24个,声调有5个。表1是韵母首字符表,表2是声母字符表,表3是声母盲文ASCII码对应字典,表4是韵母盲文ASCII码对应字典,表5是声调盲文ASCII码对应字典。

如图1和图2所示,本发明提出一种汉字拼音到盲文ASCII码的转换方法,包括一种标志位汉字拼音切分算法和一种三元素汉字拼音匹配盲文ASCII码算法;对于可能包含声母、韵母和声调的每个汉字拼音字符串,本发明提出的标志位汉字拼音切分算法在所有韵母的首字符均不同于声母的字符这一客观事实上,建立了韵母首字符表和声母字符表,从韵母角度寻找标志位Pos,切分出拼音字符串的声母、韵母和声调;进而,分别查找声母、韵母和声调的盲文ASCII码对应字典,三元素汉字拼音匹配盲文ASCII码算法分别得到声母的盲文ASCII码、韵母的盲文ASCII码和声调的盲文ASCII码,然后按次序组合出汉字的盲文ASCII码。

如图1所示,所述的一种标志位汉字拼音切分算法,详细步骤包括1)读入一个汉字的拼音字符串;2)如果此拼音字符串为空,在消息窗口提示当前字符返回拼音为空;3)如果此拼音字符串不为空,从拼音字符串的第一位字符开始判断当前字符是否属于韵母首字符表中的字符,若是,则把当前字符位置作为切分声母和韵母的标志位Pos,若不是,则选取此拼音字符串中的下一个字符继续判断,直到找到拼音字符串中韵母的第一个字符为止;4)如果Pos等于0,可以得到此拼音字符串的声母为空,韵母为拼音字符串第一位字符到倒数第二位字符,声调为拼音字符串的最后一位字符;5)如果Pos不等于0,可以得到此拼音字符串的声母为第一位字符到标志位Pos,韵母为标志位Pos到倒数第二位字符,声调为最后一位字符。

所述的建立韵母首字符表和声母字符表,详细步骤包括1)从汉字拼音的24个韵母a,o,e,i,u,ü,ai,ei,uei(ui),ao,ou,iou(iu),ie,üe,er,an,en,in,uen(un),ün,ang,eng,ing, ong中提取得到韵母首字符表,见表1;2)从汉字拼音的23个声母b,p,m,f, d,t, n,l,g,k,h,j,q,x,zh,ch, sh,r,z,c,s,y,w中提取得到声母字符表,见表2;3)对比韵母首字符表和声母字符表,发现所有韵母的首字符均不同于声母的字符,标志位汉字拼音切分算法遍历拼音字符串中的所有字符,找到韵母的首字符,作为切分声母和韵母的标志位Pos。

如图2所示,所述的三元素汉字拼音匹配盲文ASCII码算法,详细步骤包括1)如果声母为空,输出空盲文ASCII码;2)如果声母不为空,查找声母盲文ASCII码对应字典,见表3,输出此声母的盲文ASCII码;3)如果韵母为空,输出空盲文ASCII码;4)如果韵母不为空,查找韵母盲文ASCII码对应字典,见表4,输出此韵母的盲文ASCII码;4)查找声调盲文ASCII码对应字典,见表5,输出此声调的盲文ASCII码;5)按声母盲文ASCII码、韵母盲文ASCII码和声调盲文ASCII码的前后次序,组合出一个汉字的盲文ASCII码。

本发明的具体实施实例

如表6所示,以杭州的“杭”字作为示例,“杭”的拼音字符串为“hang2”,字符串长度为5。标志位汉字拼音切分算法首先取字符串中第一位字符“h”,遍历韵母首字符表,没能找到字符“h”;然后,再取第二位字符“a”,遍历韵母首字符表,找到字符“a”,标志位Pos=2;于是可以得出第一位字符“h”为声母,第二位到第四位的字符“ang”为韵母,第五位是最后一位字符“2”为声调,表示阳平。三元素汉字拼音匹配盲文ASCII码算法首先查找到“h”声母的盲文ASCII码是H,然后查找到“ang”韵母的盲文ASCII码是8,接着查找到“2”声调的盲文ASCII码是1,于是,按先后次序组合出“杭”对应的盲文ASCII码是H81。

表6 “杭”的盲文ASCII码

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语义角色标注方法、装置、电子设备和计算机可读介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!