一种基于哈希函数的藏文排序方法

文档序号：568419 发布日期：2021-05-18 浏览：10次 >En<

阅读说明：本技术 一种基于哈希函数的藏文排序方法 (Tibetan ordering method based on hash function ) 是由安见才让孙琦龙于 2021-01-28 设计创作，主要内容包括：本发明公开了一种基于哈希函数的藏文排序方法。该方法包括将待排序藏文字集分解成多个藏文字,识别各个藏文字的构件；构建基于哈希函数的藏文排序模型；基于识别的各个藏文字的构件和构建的藏文排序模型,计算各个藏文字的哈希值；基于计算的哈希值对各个藏文字进行排序,得到排序后的藏文字序列。本发明为了解决现有技术中计算藏文字权重方法过于复杂的问题,采用了哈希函数对藏文字的哈希值进行了计算,使每个藏文字都有一个独特的哈希值,从而完成了藏文排序过程,具有简单且运算速度快的优点。(The invention discloses a Tibetan ordering method based on a hash function. The method comprises the steps of decomposing a Tibetan character set to be sorted into a plurality of Tibetan characters, and identifying components of the Tibetan characters; constructing a Tibetan ordering model based on a hash function; calculating the hash value of each Tibetan character based on the identified component of each Tibetan character and the constructed Tibetan character sequencing model; and sequencing all Tibetan characters based on the calculated hash value to obtain a sequenced Tibetan character sequence. In order to solve the problem that the method for calculating the weight of the Tibetan characters in the prior art is too complex, the method adopts the hash function to calculate the hash value of the Tibetan characters, so that each Tibetan character has a unique hash value, the Tibetan character sorting process is completed, and the method has the advantages of simplicity and high calculation speed.)

一种基于哈希函数的藏文排序方法

技术领域

本发明涉及一种藏文排序方法，尤其涉及一种基于哈希函数的藏文排序方法。

背景技术

任何一种文字都有自己的排序规则,它是人们使用该文字时的一种共识和规范。应用这一人人熟知和遵守的规则,可以编排各种字、词典和字、词表以及查找其中的字或词。如今,人们可以根据各自文种的排序规则和算法,让计算机自动并快速进行繁杂的字词典(表)的编排和字词查找工作。

当前，藏文信息处理技术落后于汉文信息处理技术，汉文的校对技术不能直接应用于藏文信息处理。现有技术中有人按构件比较顺序依次比较各构件,进而比较音节的排序优先级，该方法存在大量的判断语法和判断语法的嵌套问题，算法时间复杂度高。也有人提出为每类藏文符号进行数字赋值，通过算法逐步确定字符位置并识别字符，最后按照抽取字符的对应数值组合排序，完成了藏语字词的排序，该算法存在对不同构件的不同字母进行复杂的数字赋值，从而算法的复杂度比较高而且算法的阅读性不强的问题，各构件数字合并后的数值只能做排序，而不能用于其它信息处理。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于哈希函数的藏文排序方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于哈希函数的藏文排序方法，包括以下步骤：

S1、将待排序藏文字集分解成多个藏文字，识别各个藏文字的构件；

S2、构建基于哈希函数的藏文排序模型；

S3、基于步骤S1识别的各个藏文字的构件和步骤S2构建的藏文排序模型，计算各个藏文字的哈希值；

S4、基于步骤S3计算的哈希值对各个藏文字进行排序，得到排序后的藏文字序列。

本发明具有以下有益效果：算法简单方便，运算快。从藏文字的哈希函数值可以推导出各个构件，也可以对哈希函数值进行加、减运算来完成对藏文字构件的各种操作。

优选地，步骤S1具体包括：

将待排序藏文字集分解成多个藏文字，其中第i个藏文字T_i的构件识别为{t₆,t₅,t₄,t₃,t₂,t₁,t₀}，t₆,t₅,t₄,t₃,t₂,t₁,t₀分别表示藏文字构件中的基字、前加字、上加字、下加字、元音、后加字和再后加字，缺省的构件用‘ε’代替。

该优选方案具有以下有益效果：将待排序藏文字集分解成了多个由各个构件组成的藏文字，便于后续步骤进行计算。

优选地，步骤S2包括以下分步骤：

S21、给藏文字不同的构件分配不同的位权值；

S22、给藏文字的辅音和元音分配不同的特征值；

S23、基于步骤S21分配的位权值和步骤S22分配的特征值，构建基于哈希函数的藏文排序模型。

该优选方案具有以下有益效果：基于藏文字的语法规则和排序规则，巧妙的结合哈希函数构建了藏文排序模型，构建方法简单方便。

优选地，步骤S21具体包括：

给藏文字不同的构件分配不同的位权值，其中基字的位权值为35⁶，前加字的位权值为35⁵，上加字的位权值为35⁴，下加字的位权值为35³，元音的位权值为35²，后加字的位权值为35¹，再后加字的位权值为35⁰。

该优选方案具有以下有益效果：给每个构件分配不同的位权值，确保每个藏文字都有独特的哈希值，避免出现重复。

优选地，步骤S22具体包括：

将整数值0到34分别分配给缺字母和藏文字母中的30个辅音和4个元音作为对应的特征值。

该优选方案具有以下有益效果：给不同的字母分配了不同的哈希值便于后续步骤进行计算，并且考虑了部分藏文字构件存在省缺的情况，添加了缺字母的特征值分配。

优选地，步骤S23具体包括：

基于步骤S1分配的位权值和S22分配的特征值，采用哈希函数构建计算各个藏文字的哈希值的藏文排序模型：

其中h(T)为藏文字T的哈希值，t_j为藏文字T的第j个构件，f(t_j)为计算构件t_j的特征函数，35^j为第j个构件对应的位权值。

优选地，步骤S3具体包括：

基于步骤S1识别的各个藏文字的构件和步骤S23构建的藏文排序模型，计算各个藏文字的哈希值：

其中h(T_i)为第i个藏文字T_i的哈希值，t_ij为第i个藏文字的第j个构件，f(t_ij)为计算构件t_ij的特征函数。

该优选方案具有以下有益效果：采用构建的藏文排序模型简单方便的计算出了每个藏文字的对应唯一哈希值，便于后续步骤进行排序。

优选地，步骤S1中还包括：对非规范的藏文字分别做单独的预处理，还原为规范的藏文字。

该优选方案具有以下有益效果：使本发明除了适用于规范的现代藏文字外还适用于非规范的藏文字，增强了本发明的实用性。

附图说明

图1是本发明一种基于哈希函数的藏文排序方法的流程图；

图2是本发明实施例中藏文字构建的位权分配示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

藏字是由四元音和三十个辅音通过“三十颂”和“字性规范”的语法规则组合形成的，藏文字母按前加字+上加字+基字+下加字+元音+后加字+再后加字的顺序由7个字母按“三十颂”和“字性规范”进行组合完成，按《藏文正字》书中的藏文字的排序规则是：基字→前加字→上加字→下加字→元音→后加字→再后加字，相同的字母在不同的位置上其作用是不一样的，就如一个数值，相同的数字在不同的位置其位权不一样。一个藏字中前加字、上加字、下加字、元音、后加字和再后加字可以省缺，但基字是不能省缺。

基于上述规则，本发明根据藏文字中7个位置上，藏文字母的顺序值和不同位置的权重大小，建立了一个哈希函数，通过计算排序藏文字的哈希值而对哈希值进行排序进而实现藏文字的排序。

请参照图1，本发明提供了一种基于哈希函数的藏文排序方法，包括以下步骤：

S1、将待排序藏文字集分解成多个藏文字T₀,T₁,T₂,…,T_n，识别各个藏文字的构件；

本发明实施例中，步骤S1具体包括：

将待排序藏文字集分解成多个藏文字T₀,T₁,T₂,…,T_n，其中第i个藏文字T_i的构件识别为{t₆,t₅,t₄,t₃,t₂,t₁,t₀}，t₆,t₅,t₄,t₃,t₂,t₁,t₀分别表示藏文字构件中的基字、前加字、上加字、下加字、元音、后加字和再后加字，缺省的构件用‘ε’代替。

S2、构建基于哈希函数的藏文排序模型；

本发明实施例中，步骤S2包括以下分步骤：

S21、给藏文字不同的构件分配不同的位权值；

本发明实施例中，步骤S21具体包括：

请参照图2，给藏文字不同的构件分配不同的位权值，其中基字的位权值为35⁶，前加字的位权值为35⁵，上加字的位权值为35⁴，下加字的位权值为35³，元音的位权值为35²，后加字的位权值为35¹，再后加字的位权值为350，如表1所示。

表1藏文构件位权值

S22、给藏文字的辅音和元音分配不同的特征值；

本发明实施例中，步骤S22具体包括：

按藏文字母和元音传统的排列规则，将整数值0到34分别分配给缺字母和藏文字母中的30个辅音和4个元音作为对应的特征值，如表2所示。

表2藏文字母频率及分配的特征值

S23、基于步骤S21分配的位权值和步骤S22分配的特征值，构建基于哈希函数的藏文排序模型。

本发明实施例中，步骤S23具体包括：

基于步骤S1分配的位权值和S22分配的特征值，采用构建的哈希函数构建计算各个藏文字的哈希值的藏文排序模型：

其中h(T)为藏文字T的哈希值，t_j为藏文字T的第j个构件，f(t_j)为计算构件t_j的特征函数，35^j为第j个构件对应的位权值。

S3、基于步骤S1识别的各个藏文字的构件和步骤S2构建的藏文排序模型，计算各个藏文字的哈希值；

本发明实施例中，步骤S3具体包括：

基于步骤S1识别的各个藏文字的构件和步骤S23构建的藏文排序模型，计算各个藏文字的哈希值：

其中h(T_i)为第i个藏文字T_i的哈希值，t_ij为第i个藏文字的第j个构件，f(t_ij)为计算构件t_ij的特征函数。

S4、基于步骤S3计算的哈希值对各个藏文字进行排序，得到排序后的藏文字序列。

接下来对本发明所提出的基于哈希函数的藏文排序方法的准确率进行验证，收集了包含18864个规范的现代藏文字和12个非规范藏文字的实验语料，实验结果如表3所示。

表3实验结果

	正确率(％)	错误率(％)
			语料库	99.9365	0.0636
现代藏文字	100	0
			非规范藏文字	0	100

从实验结果可以看出，本发明所提出的方法对规范的现代藏文字可以高效、方便的完成排序任务，但对非规范的藏文字还需单独先做预处理，再用该方法实现正确地排序。

因此本发明实施例中，步骤S1中还包括：对非规范的藏文字分别做单独的预处理，使其还原成规范现代藏文字。

综上所述，本发明通过研究藏字的语法和构字规律，提出了一种基于哈希函数的对藏文字进行排序的方法。该方法可应用于语料库、文字识别、语音识别和出版印刷等领域和行业研究和工作。

本领域的普通技术人员将会意识到，这里所描述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种实现自动生成文档的方法

一种基于哈希函数的藏文排序方法

相关技术

网友询问留言