汉字完整结构编码方法

文档序号:683280 发布日期:2021-04-30 浏览:21次 >En<

阅读说明:本技术 汉字完整结构编码方法 (Complete structure coding method for Chinese characters ) 是由 陈非 于 2021-02-01 设计创作,主要内容包括:本发明是一种把汉字的全部结构要素都编入代码,而又不显著增加文字代码的码元数量的方法。本发明利用“尸”、“Ф”、“串”、“井”、“圭”、“开”、“王”、“月”、“工”、“口”、“日”、“目”、“田”、“个”、“丫”、“大”、“木”、“米”、“人”、“止”、“乍”、“十”、“艹”、“丰”、“卌”、“φ”、“厂”、“匚”、“乙”、“几”、“弓”、“一”、“二”、“三”、“灬”、“土”、“丁”、“ㄡ”、“于”总共42个基本字根,以及它们组合而成的186个组合字根,实现文字结构的全部要素都编入代码,以避免其它基于字形的计算机汉字编码方案中,为了控制码元数量而被迫舍弃文字部分结构要素的弊端。(The present invention is a method for coding all the structural elements of Chinese characters without obviously increasing the number of code elements of character codes. The invention utilizes dead bodies, phi, strings, wells, guid, kaikang, king, moon, worker, mouth, day, eye, field, individual and Y, Large, wood, rice and man, &#39; Zhi &#39;, &#39; zhao &#39;, &#39; Shi &#39;, &#39; &#43; &#39;, &#39; Feng &#39;, &#39; &#39;, &#39; phi &#39;, &#39; factory &#39;, &#39; Contraband &#39;, &#39; B &#39;, &#39; several The Chinese character coding method is characterized in that all elements for realizing the character structure are coded by combining 186 combined radicals of 42 basic radicals formed by combining a bow, a first radical, a second radical, a third radical, an , a soil radical, a T radical and a ㄡ, so that the defect that structural elements of character parts are forced to be abandoned for controlling the number of code elements in other character-based computer Chinese character coding schemes is avoided.)

汉字完整结构编码方法

技术领域

本发明是一种为汉字编写ASCII字符代码的方法,以便汉字输入计算机。

背景技术

当前的汉字字形编码方案,无不是用字根表示文字的部分结构,来代表整个文字,以使文字代码的码元数量控制在可接受的范围之内。比如五笔字型,选取文字的前三个字根和最后的字根构成代码,其余的字根就忽略掉了,以确保代码不超过四位码元。完整表达汉字结构要素,的确不是计算机输入汉字的必要条件,但是作为字形编码方案,舍弃文字的部分结构就不算完美。

本发明意在提供一种能够包含文字所有结构要素,但又不会显著增加码元数量的编码方法。

本发明以中国专利申请号为CN202010810157.6,名称为“一种以字形为基础的方块字编码方法”的发明为技术来源,该发明字根数量少、规律强,有二维的矩形字根和三角形字根,以及一维的交接关系、交叉关系、转折关系、零散关系、混合关系字根,总共42个字根统称为“拓扑字根”,能够对国家标准字库GB2312中的6763个汉字编制计算机输入代码。

拓扑字根列表如下:

字根类型 一个矩形 二个矩形 三个矩形 四个矩形
封闭矩形

字根类型 二个矩形 三个矩形 四个矩形 六个矩形 八个矩形
开放矩形

字根类型 3×3、3×4个矩形 十个矩形 2×6、2×7个矩形
开放矩形 Ф

字根类型 一笔零散 二笔零散 三笔零散 四笔零散
零散关系

字根类型 一个交叉 二个交叉 三个交叉 四个交叉 五、六个交叉
交叉关系 φ

字根类型 一个转折 二个转折 三个转折 四个转折 五个转折 六个转折
转折关系

以上列表中的字根,与CN202010810157.6号发明的原版字根略有不同。原版中的三列四行矩形的“弗”字根,此表中已与三列三行矩形的“井”字根合并,成为涵盖着三列三行矩形的矩阵结构字根;此表新增了一个混合关系字根,由一个封闭结构的矩形与一个开放结构的直角三角形构成,用符号“尸”表示,它在计算机键盘与手机虚拟键盘上取代了原版中“弗”字根的位置。

拓扑字根默认对应美式计算机键盘的英文字母、标点符号,如图1。四十二个字根由十个数字、二十六个小写字母、以及“`”、“[”、“]”、“\”四个符号,总共四十个ASCII字符表示。在计算机键盘上,所有字根都尽量按类型集中,并按从小到大或从大到小的次序排列,每个字根都由所在键位上对应的ASCII字符表示自己。

拓扑字根在计算机键盘的排列如图2,“backspace”键那一排包括“井”“圭”“开”“王”“月”“工”“口”“日”“目”“田”十个矩形字根,以及一个混合关系字根“尸”;“tab”键那一排包括四个零散关系字根,六个转折关系字根,以及三个混合关系字根“土”“丁”“ㄡ”;“caps lock”键那一排,包括五个交叉关系字根,四个交接关系字根,以及二个矩形字根“串”和“Ф”;“串”字根与“卌”字根共用键位,“Ф”字根与“φ”字根共用键位;“shift”键那一排,包括六个三角形字根,以及一个混合关系字根“于”。

拓扑字根在手机虚拟键盘上的排列如图7,每个字根所对应的ASCII字符,与在图2的计算机键盘上相同。第一排是十个矩形字根“井”“圭”“开”“王”“月”“工”“口”“日”“目”“田”;第二排是四个零散关系字根和六个转折关系字根;第三排是五个交叉关系字根和四个交接关系字根,一个混合关系字根“尸”,以及二个矩形字根“串”、“Ф”,其中“串”字根与“卌”字根共用键位,“Ф”字根与“φ”字根共用键位;第四排是六个三角形字根和四个混合关系字根。除了“尸”“土”“丁”“ㄡ”四个混合字根移动位置之外,每一排的字根排列与图2的计算机键盘一致。

依据图1的美式键盘和图2的排列方式,42个字根与40个ASCII字符的对应关系如下表:

拓扑字根编码汉字时,可以选取四个相对较大的字根表示某个字,把代码的码元长度限制为四位;字根总数不足四个的文字,代码可以小于四位码元。

独体字选取相对较大的四个字根;左右、上下、内外、镶嵌、左中右、上中下,半包围结构的字,区分它们互不相连的各个部分的数量:如果正好有四个部分,则选取各部分的最大字根;如果不足四个部分,则选取各部分的最大字根之后,再选取剩余字根中相对大的,凑满四位码元;如果大于四个部分,则从各部分的最大字根中再选取四个相对大的。

所选取的四个字根,按照它们的公共点在书写顺序中出现的先后来排序,当二个候选字根大小相等时,先出现的先选取。

各字根的相对大小,以它们含有的特定结构要素,既矩形、三角形、线段、公共点的数量为准,综合衡量后各字根从大到小可排列如下:Ф>井>串>圭>米>开>木>大>田>王>>目>月>丫>弓>=φ>卌=乍=几>日>工>个>尸>口>丰=止=乙=于>灬>艹==匚>土=丁=ㄡ>三>十=人=厂>二>一。

发明内容

在不限制文字代码的码元数量的前提下,用尽量少的码元表示文字结构全部要素的方法,就是以拓扑字根为基础构造组合字根,并用包含尽量多的结构要素的组合字根表示文字,避免了舍弃局部结构。

比如“缘”字,全部结构用拓扑字根表示出来是:

“丁厂一丁厂上乍厂丫”

如果把“丁厂一”组合成一个字根用“纟”表示,“丁厂上”组合成一个字根用“彑”表示,“乍厂丫”组合成一个字根用“豕”表示,则全部结构用组合字根表示出来是:“纟彑豕”,只用了三个字根。对于笔划较多的字来说,组合字根能有效地降低码元数量,减少击键次数,同时反映文字全部结构。

组合字根是由二个以上拓扑字根组合而成的较大字根,也是常用的汉字结构部件或独体字。对于输入法程序而言,组合字根在效果上类似于若干个拓扑字根的连续输入,相当于把若干个拓扑字根打包之后一键输入。它们也与拓扑字根共用键位,当摁下一个键后,到底输入的是拓扑字根还是组合字根,由程序依据整个文字代码自动识别,并提供最可能代表的字或词供选择。

由拓扑字根构造的组合字根共186个,分成“笔型”、“笔数”、“事物”三个大组,每个大组中字形相似或相同的字根又再被编成若干小组,每个小组的字根在键盘上都共用一个键位,以其中一个字根作为小组代表,以便显示在计算机或手机的键盘上。

笔型组字根共60个,列于下表,其中位于同一单元格内的多个字根属于同一小组:

该大组中有37个字根依据形状编成了17个小组,含有多个字根的单元格中的第一个字根是小组代表,17个代表字根与另外23个不在小组内的字根,分别占用键盘上的一个键位,总共占用了40个键位。

笔数组字根共66个,列于下表,其中位于同一单元格内的多个字根属于同一小组:

该大组中有46个字根依据形状编成了20个小组,含有多个字根的单元格中的第一个字根是小组代表,20个代表字根与另外20个不在小组内的字根,分别占用键盘上的一个键位,总共占用了40个键位。

事物组字根共60个,列于下表,其中位于同一单元格内的多个字根属于同一小组:

该大组中有35个字根依据形状编成了15个小组,含有多个字根的单元格中的第一个字根是小组代表,15个代表字根与另外25个不在小组内的字根,分别占用键盘上的一个键位,总共占用了40个键位。

笔型组字根在计算机键盘上的排列如图3所示,字根大都以开头笔划分类,尽量按类型集中,在“backspace”键那一排是以撇开头的字根,“caps lock”键那一排是以点开头的字根,“shift”键那一排是以横开头的字根,“tab”键那一排右边六键是以横折开头的字根,左边七键是以竖或竖撇为主干的字根。

笔数组字根在计算机键盘上的排列如图4所示,所有字根都以笔划数量分类,尽量按类型集中,在“backspace”键那一排是六划以上的字根,“caps lock”键那一排是五划的字根,“shift”键那一排是三划的字根,“tab”键那一排除最左的一个键和最右二个键外,都是四划的字根。

事物组字根在计算机键盘上的排列如图5所示,所有字根都以生物组织器官、自然现象、动物、人造器物分类,尽量按类型集中,在“backspace”键那一排是动物类的字根,“caps lock”键那一排是人造器物类的字根,“shift”键那一排除最左键外都是自然现象类的字根,“tab”键那一排是生物组织器官类的字根。

拓扑字根也被视为一个大组,称为拓扑组,该组字根所在的40个键位,也是笔型组、笔数组、事物组分配字根的键位,所以每个键位至少含有4个字根,拓扑组、笔型组、笔数组、事物组字根至少各一个;这些键位上的ASCII字符,也至少代表了4个字根。

在计算机键盘的贴片上,可以印刷出特定的4个字根,然后粘贴在对应的键位上,一目了然,非专业人士无须刻意记住字根的位置,如图6所示;在智能手机的虚拟键盘上,40个键位的每一个都可以显示相应的4个字根的符号,如图8所示;图8中的每个键位上的拓扑字根都与图7相同,每个键位上拓扑字根与组合字根的搭配,都与图6相同,所以每个键位对应的ASCII字符也与图6、图7相同。

组合字根中有118个字根编入了52个小组,不在小组中的孤立字根有68个;拓扑字根共42个,连同186个组合字根,合计228个字根。

计算机或手机的键盘的键位上只须显示4个字根,40个键位共显示160个字根,其余68个未显示的字根中,66个组合字根位于与之同一小组的代表字根所在的键位上,2个拓扑字根“Ф”、“串”分别位于“φ”、“卌”的键位上。

拓扑组、笔型组、笔数组、事物组四组字根,可以分别在键位上显示为黑、绿、红、蓝色;可以分别显示在键位的左下角、左上角、右上角、右下角。

组合字根的使用规则:

输入任意某个文字时,要么全部使用拓扑字根,要么尽量使用组合字根,只有在局部结构没有对应的组合字根时,才使用拓扑字根。例如“窝”字,拆成“穴”“几”“乙”“土”“人”,上部由现成的组合字根“穴”表示,下部的“呙”字没有相应的组合字根,只能用拓扑字根表示。

组合字根可以分解拓扑字根中的一维混合关系字根,既“于”、“土”、“丁”、“ㄡ”四个字根,但不能分解交叉关系、交接关系、转折关系字根,以及矩形、三角形相关字根。例如“录”字,用组合字根表示为“”“人”“氺”,用拓扑字根表示为“厂”“上”“丁”“灬”,混合关系字根“丁”所表示的结构,在用组合字根表示时分解开了,“厂”字根成了“氺”字根的一部分,“人”字根则独立出来,连接着“”与“氺”二个字根;但是“函”字,不能用组合字根表示为“匚”“氺”“匚”,因为这样拆分导致转折关系字根“乙”被分解了,该字只能用拓扑字根表示为“乙”“灬”“匚”。

组合字根与组合字根、组合字根与拓扑字根拼合时,可以各自表示一条线段的局部。例如“隶”字,表示为“肀”“氺”,“肀”字根表示了那一竖的上半截,而“氺”字根表示了下半截;又如“裁”字,表示为“土”“衣”“”“一”,“土”字根表示了那一横的左半截,而“”字根表示了右半截。

组合字根与组合字根,以及组合字根与拓扑字根拼合时,可以重复表示文字的一条线段。例如“成”字表示为“戊”“勹”,二个字根都表示了左边的撇。但是,不能重复表示具有公共点的二条线段,就是说,不能重复表示具有交接关系、交叉关系、转折关系的多条线段。例如“永”字不能表示为“一”“匚”“水”,否则下面的转折关系被表示了二次,该字只能用拓扑字根表示为“一”“匚”“厂”“人”。

拓扑字根之间的拼合类似于竹编织品,像竹篾一样某些字根可以与另一些字根交错重叠。例如“申”字的“田”“丰”二个字根就局部重叠在一起。

组合字根之间、组合字根与拓扑字根之间的拼合类似于拼图游戏,像拼块一样字根之间可以紧挨着,但界线分明、不能交错重叠,也就是不能你中有我我中有你。例如“必”字不能表示为“心”“十”,因为“心”与“十”交错重叠了;假设“必”字的三个点都位于那一撇的下面,那么拆成“十”“心”是合乎拼图游戏规则的,这种情况下二个字根分别表示了那一竖的上半截和下半截。

一个组合字根不要借助其它组合字根表示自己,哪怕没有违反拼图游戏规则。例如“瓜”字不要表示为“爪”“丁”,“方”字也不要表示为“一”“万”。

文字只使用拓扑字根表示时,矩形字根“开”的适用条件是:矩阵的长边具有完整的笔划边框;但在使用了组合字根的前提下,六矩形结构的矩阵只要具备任意一条完整的笔划边框,且没有相连笔划超出矩阵的范围,就适用“开”字根。例如“靓”字,右边由组合字根“见”表示,左边的“青”字就可拆成“开”“月”,整个字拆分为“开”“月”“见”,代码是“352”。

使用组合字根时,字根提取的顺序与使用拓扑字根时一致,按笔划顺序最先出现的公共点,其所归属的拓扑字根或组合字根最先提取。例如独体字“”,提取顺序是“虫”“人”。

使用代表更多结构要素的组合字根代替拓扑字根,能显著提高输入效率,笔划越多效果越明显。例如“藏”字,全部结构用拓扑字根表示出来是:“艹厂丁上工匚工艹厂一”,用组合字根表示为“艹戊爿臣”,只用了四个字根。

附图说明

图1是美式计算机键盘样图。

图2是拓扑字根在计算机键盘的排列图。

图3是笔型组字根在计算机键盘的排列图。

图4是笔数组字根在计算机键盘的排列图。

图5是事物组字根在计算机键盘的排列图。

图6是拓扑字根和组合字根在计算机键盘的按键上的贴片图。

图7是拓扑字根在手机虚拟键盘上的排列图。

图8是拓扑字根和组合字根在手机虚拟键盘上的排列图。

具体实施方式

每个汉字的代码都不限制码元数量,有多少字根就有多少码元。根据组合字根的使用规则,按照图6的计算机键盘,或图8的手机键盘,点击汉字的代码输入汉字。

随着码元的依次输入,当可能的重码字全部排除时,该字成为候选栏的唯一剩下的字,再次击键时会出现二种可能:如果点击的字符是该字的下一个码元,则该字上屏,候选栏清空;如果点击的字符不是该字的下一个码元,则该字上屏,所点字符被视为新的待输入文字的第一个码元,并在候选栏呈现新的可能需要的文字。

当文字的码元尚未完全输入,可能的重码字尚未全部排除,候选栏上不止一个选项,此时也可以直接在候选栏上选取文字,而不是继续输入下一个码元。在计算机键盘上选取候选栏的文字时,理论上会遇到所输入序号恰好是某个候选文字的下一位码元的情况,此时可让序号对应的汉字和码元对应的汉字都保留在候选栏,再次点选的序号,如果不是某字的码元了,则对应序号的汉字上屏。

以上操作中,无需等到全部码元输入完毕,文字就上屏了,但是文字代码本身确实包含了完整的结构信息。正确输入全部码元才显示文字,只适合输入法的入门练习模式,在日常应用模式中是不必的。

在计算机的键盘上,本编码法的汉字输入模式无法输入数字,因为数字被输入法程序作为码元处理了,这时可以用“Shift”、“Ctrl”等自定义的热键,一键切换到英文输入模式,完成数字输入。

使用频率靠前的3500个简体字,利用组合字根和拓扑字根,进行完整结构的表示,其中八成的代码不会超过五位码元,超过七位码元的字不存在,即使超过五位码元的字,除个别外也只须输入到第四位码元就可以自动上屏了。

以下是用组合字根结合拓扑字根表示文字的若干示例:

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于关键能力的题库构建方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!