CN113743093A - 一种文本校正的方法和装置 - Google Patents
一种文本校正的方法和装置 Download PDFInfo
- Publication number
- CN113743093A CN113743093A CN202010553436.9A CN202010553436A CN113743093A CN 113743093 A CN113743093 A CN 113743093A CN 202010553436 A CN202010553436 A CN 202010553436A CN 113743093 A CN113743093 A CN 113743093A
- Authority
- CN
- China
- Prior art keywords
- text
- predefined
- similarity value
- similarity
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000875 corresponding Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 20
- 240000004282 Grewia occidentalis Species 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 3
- 230000036541 health Effects 0.000 description 40
- 238000010276 construction Methods 0.000 description 31
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000006011 modification reaction Methods 0.000 description 4
- 230000003287 optical Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000036642 wellbeing Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003666 Nerve Fibers, Myelinated Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000717 retained Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明公开了一种文本校正的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取第一文本,去除所述第一文本的非关键信息,形成第二文本;在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值;当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。该实施方式通过对输入文本进行预处理并通过计算预处理后的输入文本与标准库中的文本的相似值,确定标准库中输入文本所对应的文本,从而降低了数据复核和输入数据的工作量,提高了数据录入的准确率。
Description
技术领域 本发明涉及计算机技术领域,尤其涉及一种文本校正的方法和装置。 背景技术 在管理信息系统中,需要手工录入或者从第三方数据库导入数据,在数据尤其是文本数据的输入过程中,由于失误等原因,手工录入的文本数据或者从第三方导入的文本数据与标准库中的数据文本可能存在不一致但是又具有一定相似性的情况。 在实现本发明过程中,发明人发现现有技术中至少存在如下问题: 当手工录入的文本数据与标准库中的文本数据存在不一致但是又具有一定相似性的情况时,现有技术中因为没有考虑文本的相似性,认为这种情况为错误文本数据输入,进而忽略该类文本数据,并进行重新输入,造成数据输入的重复工作,增加了复核数据和输入数据的工作量。 发明内容 有鉴于此,本发明实施例提供一种文本校正的方法和装置,能够通过对输入文本进行预处理并通过计算预处理后的输入文本与标准库中的文本的相似值,确定标准库中输入文本所对应的文本,从而降低了数据复核和输入数据的工作量,提高了数据录入的准确率。 为实现上述目的,根据本发明实施例的一个方面,提供了一种文本校正的方法,其特征在于,包括:获取第一文本,去除所述第一文本的非关键信息,形成第二文本;在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值;当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。 可选地,所述文本校正的方法,其特征在于, 获取第一文本,去除所述第一文本的非关键信息,形成第二文本,包括:去除所述第一文本的符号、固定特征文本中的任意一种或者多种非关键信息,形成所述第二文本。 可选地,所述文本校正的方法,其特征在于, 计算所述第二文本与所述预定义文本的相似值,包括: 分别获取所述预定义文本集合中的预定义文本,计算所述第二文本与所述预定义文本的字形相似值、所述第二文本与所述预定义文本的字音相似值,根据所述字形相似值和所述字音相似值,计算所述第二文本与所述预定义文本的相似值。 可选地,所述文本校正的方法,其特征在于, 计算所述第二文本与所述预定义文本的字形相似值,包括: 获取所述第二文本以及所述预定义文本所包含字符的结构、四角号码和笔画数,形成所述字符的字形标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字形标识并计算所述字符的字形相似值,根据各个所述字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的所述字形相似值。 可选地,所述文本校正的方法,其特征在于, 计算所述第二文本与所述预定义文本的字音相似值,包括: 获取所述第二文本与所述预定义文本所包含字符的声母、韵母、辅音和声调,形成所述字符的字音标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字音标识并计算所述字符的字音相似值,根据各个所述字符的所述字音相似值的平均值,形成所述第二文本与所述预定义文本的所述字音相似值。 可选地,所述文本校正的方法,其特征在于, 计算所述第二文本与所述预定义文本的相似值,包括: 当所述第二文本的长度和所述预定义文本的长度不一致时,根据较长文本中字符顺序,从左到右依次截取与较短文本长度相同的临时文本,基于所述较短文本和所述临时文本,分别计算所述较短文本与所述临时文本的字形相似值和字音相似值,根据所述字形相似值的最大值以及所述字音相似值的最大值,计算所述第二文本与所与所述预定义文本的所述相似值。 可选地,所述文本校正的方法,其特征在于, 当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,包括: 获取所述第二文本与各个所述预定义文本的所述相似值,选取所述相似值的最大值与预定义相似阈值进行对比,当所述相似值的最大值不小于所述预定义相似阈值时,将所述相似值的最大值所对应的所述预定义文本作为所述第二文本的所述校正文本。 可选地,所述文本校正的方法,其特征在于, 当所述相似值小于预定义相似阈值时,标记所述第二文本为待校正的文本。 为实现上述目的,根据本发明实施例的第二方面,提供了一种文本校正的装置,其特征在于,包括:文本处理模块、文本相似值计算模块和校正文本获取模块;其中, 所述文本处理模块,用于获取第一文本,去除所述第一文本的非关键信息,形成第二文本; 所述文本相似值计算模块,用于在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值; 所述校正文本获取模块,用于当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。 可选地,所述文本校正的装置,其特征在于, 获取第一文本,去除所述第一文本的非关键信息,形成第二文本,包括:去除所述第一文本的符号、固定特征文本中的任意一种或者多种非关键信息,形成所述第二文本。 可选地,所述文本校正的装置,其特征在于, 计算所述第二文本与所述预定义文本的相似值,包括: 分别获取所述预定义文本集合中的预定义文本,计算所述第二文本与所述预定义文本的字形相似值、所述第二文本与所述预定义文本的字音相似值,根据所述字形相似值和所述字音相似值,计算所述第二文本与所述预定义文本的相似值。 可选地,所述文本校正的装置,其特征在于, 计算所述第二文本与所述预定义文本的字形相似值,包括: 获取所述第二文本以及所述预定义文本所包含字符的结构、四角号码和笔画数,形成所述字符的字形标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字形标识并计算所述字符的字形相似值,根据各个所述字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的所述字形相似值。 可选地,所述文本校正的装置,其特征在于, 计算所述第二文本与所述预定义文本的字音相似值,包括: 获取所述第二文本与所述预定义文本所包含字符的声母、韵母、辅音和声调,形成所述字符的字音标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字音标识并计算所述字符的字音相似值,根据各个所述字符的所述字音相似值的平均值,形成所述第二文本与所述预定义文本的所述字音相似值。 可选地,所述文本校正的装置,其特征在于, 计算所述第二文本与所述预定义文本的相似值,包括: 当所述第二文本的长度和所述预定义文本的长度不一致时,根据较长文本中字符顺序,从左到右依次截取与较短文本长度相同的临时文本,基于所述较短文本和所述临时文本,分别计算所述较短文本与所述临时文本的字形相似值和字音相似值,根据所述字形相似值的最大值以及所述字音相似值的最大值,计算所述第二文本与所与所述预定义文本的所述相似值。 可选地,所述文本校正的装置,其特征在于, 当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,包括: 获取所述第二文本与各个所述预定义文本的所述相似值,选取所述相似值的最大值与预定义相似阈值进行对比,当所述相似值的最大值不小于所述预定义相似阈值时,将所述相似值的最大值所对应的所述预定义文本作为所述第二文本的所述校正文本。 可选地,所述文本校正的装置,其特征在于, 当所述相似值小于预定义相似阈值时,标记所述第二文本为待校正的文本。 为实现上述目的,根据本发明实施例的第三方面,提供了一种文本校正的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述文本校正的方法中任一所述的方法。 为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述文本校正的方法中任一所述的方法。 上述发明中的一个实施例具有如下优点或有益效果:通过对输入文本进行预处理并通过计算预处理后的输入文本与标准库中的文本的相似值,确定标准库中输入文本所对应的文本,从而降低了数据复核和输入数据的工作量,提高了数据录入的准确率。 上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。 附图说明 附图用于更好地理解本发明,不构成对本发明的不当限定。其中: 图1是本发明第一实施例提供的一种文本校正的方法的流程示意图; 图2是本发明一个实施例提供的一种计算中文字形相似值的方法的流程示意图; 图3是本发明一个实施例提供的一种计算中文字音相似值的方法的流程示意图; 图4是本发明第二实施例提供的一种文本校正的方法的流程示意图; 图5是本发明一个实施例提供的一种文本校正的装置的结构示意图; 图6是本发明实施例可以应用于其中的示例性系统架构图; 图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。 具体实施方式 以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。 如图1所示,本发明实施例提供了一种文本校正的方法,该方法可以包括以下步骤: 步骤S101:获取第一文本,去除所述第一文本的非关键信息,形成第二文本。 具体地,第一文本为输入文本,包含用户手工录入的文本,或者由第三方数据库导入的文本,例如,个人信息系统中的与个人相关的企业名称、电商数据库中的厂家名称、商品名称等。 进一步地,去除所述第一文本的非关键信息,即,去除所述第一文本的符号、固定特征文本中的任意一种或者多种非关键信息,形成所述第二文本。具体地,对第一文本去除所述第一文本的非关键信息,例如去除文本中的诸如括号、破折线、短线等的符号;去除固定特征文本,例如去除第一文本中的表示地理维度的名词、表示固定类别和性质的名词。在一个示例中,假设手工录入的第一文本为“丹乌市小康健设集团股份有限公司”,去除表示地理维度的信息(例如去除“丹乌市”);去除表示企业类别和性质的特征文本(例如去除“股份”、“有限公司”、“集团”等);最终,得到第二文本“小康健设”;可以理解的是,通过去除第一文本的非关键信息得到第二文本,有助于提高第二文本与预定义文本的匹配率,并降低计算复杂度;进一步地,当去除表示地理维度的信息之后获得的文本信息不能指示为包含具体含义的文本,则保留该文本的地理维度的信息;例如:中国银行,去除地理维度的信息“中国”之后得到的文本为“银行”,因为该文本不能指示具体的公司名称或者会与其他公司名称重复,则保留该地理维度的信息,即“中国银行”作为第二文本。 即,获取第一文本,去除所述第一文本的非关键信息,形成第二文本;包括:去除所述第一文本的符号、固定特征文本中的任意一种或者多种非关键信息,形成所述第二文本。 本发明对第一文本的内容、提取关键信息的方法、非关键信息的具体的符号和固定特征文本不做限定;可根据应用场景来定义。 步骤S102:在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值。 具体地,仍以步骤S101中提到的第二文本为处理后的企业名称为例,在预定义文本集合中查找与所述第二文本匹配的预定义文本,一般地,类似于企业名称这样的信息存在企业名称数据库,数据库中包含企业标准化的全称,例如:在一个企业名称数据库中,收录几万或者几千个企业名称;或者在各领域的企业协会官网收录该领域的企业名称形成领域相关的企业名称数据库;这样的数据库可认为是标准的公司名称数据库,该标准的公司名称数据库即预定义文本集合; 进一步地,基于第二文本在预定义文本集合中查找与所述第二文本匹配的预定义文本,例如:第二文本为“小康健设”,在预定义文本集合中查找与所述第二文本匹配的预定义文本,可以用以下两种方法进行查找: 第一种方法:利用第二文本作为关键字进行模糊查询,查看预定义文本集合中的每一个预定义文本,是否存在有与第二文本匹配的预定义文本; 第二种方法:对预定义文本集合中的每一个预定义文本进行数据预处理,提取每一个预定义文本中的关键信息,去除预定义文本中的符号、固定特征文本中的一种或者多种非关键信息,然后利用第二文本作为关键字进行模糊查询,每一个预处理之后的预定义文本,是否存在与第二文本匹配的预定义文本; 可以理解的是,当查找到与所述第二文本匹配的所述预定义文本时,则认为第二文本所描述的企业的关键信息名称为正确文本数据,进一步地,根据第一文本输入的企业名称或其匹配的预定义文本,确认标准的企业名称; 进一步地,在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值; 具体地,假设因为手工录入的失误,将“建设”输入成了“健设”,在经过非关键信息去除后,获得的第二文本为“小康健设”,并且在预定义文本集合中的预定义文本中查找不到与“小康健设”匹配的预定义文本,则计算所述第二文本与每一个所述预定义文本的相似值; 进一步地,计算所述第二文本与所述预定义文本的相似值,包括:分别获取所述预定义文本集合中的预定义文本,计算所述第二文本与所述预定义文本的字形相似值、所述第二文本与所述预定义文本的字音相似值,根据所述字形相似值和所述字音相似值,计算所述第二文本与所述预定义文本的相似值。 计算所述第二文本与所述预定义文本的字形相似值如图2以及步骤S201-步骤S204所描述,计算所述第二文本与所述预定义文本的字音相似值如图3以及步骤S301-步骤S304所描述;在此不再赘述。 进一步地,根据所述字形相似值和所述字音相似值,计算所述第二文本与所述预定义文本的相似值,例如,利用公式Y=0.3Z+0.7S计算所述第二文本与所述预定义文本的相似值,其中,Z为所述第二文本与所述预定义文本的字形相似值,S为所述第二文本与所述预定义文本的字形相似值,Y为所述第二文本与所述预定义文本的相似值;优选地,0.3与0.7分别为字形相似值和字音相似值的权重,本发明对计算所述第二文本与所述预定义文本的相似值的具体公式和内容不做限定; 根据步骤S201-步骤S204以及步骤S301-步骤S304所描述的示例以及计算过程可知,第二文本“小康健设”与预定义文本的预处理文本“小康建设”的字形相似值为0.81;第二文本“小康健设”与预定义文本的预处理文本“小康建设”的字音相似值为1;利用上述公式Y=0.3Z+0.7S计算第二文本“小康健设”与预定义文本的预处理文本“小康建设”的相似值得到Y=0.94;可以理解的是,优选地,通过对预定义文本进行去除非关键信息的预处理,利用预处理文本与第二文本计算相似值,降低了计算的复杂度。 步骤S103:当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。 具体地,设定预定义相似阈值,当计算所得的相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本; 仍以步骤S102中描述的企业名称为例,假设预定义集合中的预定义文本为“丹乌市小康建设集团股份有限公司”,手工输入的有误名称处理得到的第二文本为“小康健设”,进一步优选地,对预定义文本“丹乌市小康建设集团股份有限公司”进行数据预处理,得到预定义文本的预处理文本为“小康建设”,基于步骤S102所描述的计算相似值的方法计算“小康建设”与“小康健设”的相似值,假设预定义相似阈值为0.80,计算“小康建设”与“小康健设”的相似值为0.94,0.94>0.80,则将“小康建设”(预处理文本)对应的预定义文本“丹乌市小康建设集团股份有限公司”作为“小康健设”的校正文本。 即,当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本; 可以理解的是,对输入的第一文本去除非关键字信息的处理,利用关键信息对预定义集合进行模糊查找,提高了查找的效率和准确率; 优选地,对预定义文本进行类似于第一文本去除关键字信息的处理,形成预处理文本,基于第二文本和预处理文本进行比较并计算相似值,提高了查找和计算的效率;当所述相似值不小于预定义相似阈值时,根据预处理文本所对应的预定义文本,确定所述预定义文本为所述第二文本的校正文本; 即,当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,包括:根据所述第二文本与各个所述预定义文本的相似值,选取所述相似值的最大值与预定义相似阈值进行对比,当所述相似值的最大值不小于所述预定义相似阈值时,将所述相似值的最大值所对应的所述预定义文本作为所述第二文本的所述校正文本。 进一步地,当所述相似值小于预定义相似阈值时,标记所述第二文本为待校正的文本。具体地,当所述相似值小于预定义相似阈值时,即说明在预定义文本的数据集合中没有与所述第二文本相似值匹配的预定义文本,则认为所述第二文本为输入的错误文本数据,标记所述第二文本为待校正的文本,需要进一步核实、修改和校正。 如图2所示,本发明实施例提供了一种计算两个中文字形相似值的方法,该方法可以包括以下步骤: 步骤S201:分别提取两个中文字符的结构、四角号码、笔画数三个信息。 具体地,获取要对比的两个文本,即,第二文本和预定义文本,优选地,将预定义文本“丹乌市小康建设集团股份有限公司”进行去除非关键信息的处理,得到的预处理文本为“小康建设”,下面以第二文本为“小康健设”、预定义文本的预处理文本为“小康建设”为例说明计算两个中文字形相似值的方法; 从左到右依次获取第二文本的以及预定义文本的每一个字符组成两个待对比的字符进行相似值的计算,即,“小”与“小”、“康”与“康”、“健”与“建”、“设”与“设”进行分别对比并计算字形相似值,在计算之前,获取待对比的两个中文字符的结构、四角号码、笔画数三个信息;其中,中文结构与数字或者字母的转化表的示例如表1所示;四角号码:四角号码,汉语词典常用检字方法之一,按照四角号码规则,每一个中文字符存在对应的四角号码;进一步地,计算中文的笔画数,其中1~9用数字作为替代字符,大于9画,则用a~z依次表示,大于35画的都用z表示;
表1汉字结构转化表 步骤S202:将以上三个信息转化为长度为6的数字与字母组合的混合字符串。 基于S201对于中文结构、四角号码、笔画数的描述以及中文结构、四角号码、笔画数的转换规则,分别获取每一对待对比的中文的长度为6的数字与字母组合的混合字符串; 下面以“健”和“建”为例说明上述步骤: 获取“健”的结构、四角号码、笔画数,得到的长度为6的数字与字母组合的混合字符串为:12524a; 获取“建”的结构、四角号码、笔画数,得到的长度为6的数字与字母组合的混合字符串为:715408; 步骤S203:比较两个中文转化后的混合字符串的各位置的数值是否相同; 分别比较两个文字转化后字符串每一个位置的字符是否相同,相同记为1,不同记为0。 由步骤S202的描述可知,基于中文结构、四角号码、笔画数的转换规则,分别获取每一对待对比的中文的长度为6的数字与字母组合的混合字符串;以“健”和“建”转换后的字符串为例来说明:“健”:12524a;“建”:715408; 即对比字符串12524a和715408的每一个相对应位置的数字或者字母。经过对比可知: 第1、2、4、5位为不相同;不相同记录为0 第3位相同;相同记录为1; 第6为不相同,第6位是笔画数; 步骤S204:根据比较结果和权重计算出两个中文的字形相似度; 基于步骤S203的对比可以分别获得第1到第6位的比较结果,用Pi表示第i位的比较结果,并结合如下示例公式(1)可知,优选地,结构部分权重为0.3,四角号码部分权重为0.6,笔画权重为0.1;按照此权重计算最终的文字相似度Z;其中t6、t′6为两个中文字符笔画数。
经过公式(1)计算可知,Z等于0.23,即“健”与“建”字形相似值为0.23; 步骤S201-步骤S204描述了计算两个中文字符的相似值的方法; 进一步地,第二文本中与预定义文本的预处理文本中的其他字符依次进行类似计算,例如,计算第二文本“小康健设”与预定义文本的预处理文本“小康建设”每一对文本字符的字形相似值为:1,1,0.23,1; 进一步地,获取两个文本的字形相似值为取文本所包含的字符数量,根据各个字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的预处理文本的所述字形相似值,例如,仍以第二文本“小康健设”与预定义文本的预处理文本“小康建设”为例,通过计算所得:(1+1+0.23+1)/4=0.81,0.81即为所述第二文本与所述预定义文本的预处理文本的所述字形相似值,即为所述第二文本与所述预定义文本的所述字形相似值; 进一步地,假设不对预定义文本“丹乌市小康建设集团股份有限公司”进行预处理,则计算第二文本“小康健设”与预定义文本“丹乌市小康建设集团股份有限公司”的字形相似值的步骤,如图4中的步骤S401-步骤S407的步骤所示,即,分别计算“小康健设”与“丹乌市小”、“小康健设”与“乌市小康”、“小康健设”与“市小康建”、“小康健设”与“小康建设”等,直到计算“小康健设”与“有限公司”字形相似值;根据第二文本的长度依次对预定义文本进行相似值的计算,取字形相似值的最大值,显而易见地,所述第二文本与所述预定义文本的预处理文本的所述字形相似值为最大值,即为所述第二文本与所述预定义文本的所述字形相似值。 即,计算所述第二文本与所述预定义文本的字形相似值,包括: 获取所述第二文本以及所述预定义文本所包含字符的结构、四角号码和笔画数,形成所述字符的字形标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字形标识并计算所述字符的字形相似值,根据各个所述字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的所述字形相似值。 可以理解的是,本实施例所定义的汉字结构转化表、笔画转换规则、计算字形相似值的公式形式和内容、以及公式中的权重值为示例,本发明对汉字结构转化表、笔画转换规则、计算字形相似值的公式、以及公式中的权重值的具体内容不做限定。 如图3所示,本发明实施例提供了一种计算两个中文字音相似值的方法,该方法可以包括以下步骤: 步骤S301:分别提取两个中文汉字拼音的声母、韵母、辅音、声调四个信息。 具体地,基于中文字符的拼音的声母、韵母、辅音、声调四部分,将一个中文字符转化为4个阿拉伯数字与英文字母组合的字符串进行表示。 按照如下所示的表2和表3的转换规则,将中文的声母和韵母转化为替代字符;
表2汉字声母转化表
表3汉字韵母转化表 进一步地,将声调一声、二声、三声、四声,转换为数字1、2、3、4作为替代字符; 按照表3转换规则,将辅音转化为替代字符。部分发音没有辅音字符,则记为0; 步骤S302:将以上四个信息转化为长度为4的数字与字母组合的混合字符串。 根据步骤S301的描述,基于S201对于汉字拼音声母、韵母、辅音、声调以及转换规则的描述,分别获取每一对待对比的汉字的长度为4的数字与字母组合的混合字符串。 下面仍以“健”和“建”为例说明上述步骤: 获取“健”的声母、韵母、辅音、声调,得到的长度为4的数字与字母组合的混合字符串为:bmb4; 获取“建”的声母、韵母、辅音、声调,得到的长度为4的数字与字母组合的混合字符串为:bmb4; 显而易见地,两个中文字符为同音字; 步骤S303:比较两个中文转化为的混合字符串的各位置的数字或字母是否相同。 分别比较两个文字转换后字符串每一个位置的字符是否相同,相同记为1,不同记为0; 步骤S304:根据比较结果和权重计算出两个中文的字音相似度。 根据步骤S303的比较和计算结果,利用Pi表示第i位的比较结果。 进一步地,计算两个中文字符的字音相似值,优选地,声母部分权重为0.4,韵母部分权重为0.4,辅音部分权重为0.1,声调部分权重为0.1。按照此权重计算最终的字音相似度S,如公式(2)所示: S=0.4P1+0.4P2+0.1P3+0.1P4 (2) 利用公式(2)计算可得,“健”与“建”的字音相似值为1;通过步骤S201-步骤S204描述了计算两个中文字符的相似值的方法; 进一步地,第二文本中与预定义文本中的其他字符依次进行类似计算,例如,第二文本“小康健设”与预定义文本的预处理文本“小康建设”分别计算每一个文本字符的字音相似值为:1,1,1,1; 进一步地,获取两个文本的字形相似值为取文本所包含的字符数量,根据各个字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的所述字形相似值,例如,仍以第二文本“小康健设”与预定义文本的预处理文本“小康建设”为例,通过计算所得:(1+1+1+1)/4=1,1即为所述第二文本与所述预定义文本的所述字音相似值; 可以理解的是,假设不对预定义文本“丹乌市小康建设集团股份有限公司”进行预处理,则按照图4中所示的步骤S401-步骤S407计算字音相似值;即,分别计算“小康健设”与“丹乌市小”、“小康健设”与“乌市小康”、“小康健设”与“市小康建”、“小康健设”与“小康建设”等,直到计算“小康健设”与“有限公司”字音相似值;根据第二文本的长度依次对预定义文本进行相似值的计算,取字音相似值的最大值,显而易见地,所述第二文本与所述预定义文本的预处理文本的所述字音相似值为最大值,即为所述第二文本与所述预定义文本的所述字音相似值; 即,计算所述第二文本与所述预定义文本的字音相似值,包括: 获取所述第二文本与所述预定义文本所包含字符的声母、韵母、辅音和声调,形成所述字符的字音标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字音标并计算所述字符的字音相似值,根据各个所述字符的所述字音相似值的平均值,形成所述第二文本与所述预定义文本的所述字音相似值; 可以理解的是,本实施例所定义的汉字韵母转化表、汉字声母转化表、计算字音相似值的公式、以及公式中的权重值为示例,本发明对汉字韵母转化表、汉字声母转化表、计算字音相似值的公式、以及公式中的权重值的具体内容不做限定。 如图4所示,本发明实施例提供了一种文本校正的方法,该方法可以包括以下步骤: 步骤S401:判断两个文本的长短,较长文本记为a,较短文本记为b,长度差记为z; 具体地,上述两个文本分别为第二文本与待比较的预定义文本。获取第一文本,去除所述第一文本的非关键信息,形成第二文本的描述与步骤S101一致,在此不再赘述; 可以理解的是,当第二文本与预定义文本的长度不相同时,较短文本可以是第二文本,较短文本也可以是预定义文本; 进一步地,判断两个文本的长短,较长文本记为a,较短文本记为b,长度差记为z,以第二文本为“小康健设”,预定义文本“丹乌市小康建设集团股份有限公司”为例;由此可见,第二文本与预定义文本的长度不相同,第二文本为较短文本,预定义文本为较长文本;因此,判断两个文本的长短可知较长文本为预定义文本,将其记为a;较短文本为第二文本,将其记为b,两个文本的长度差记为z; 步骤S402:固定较长文本a的位置,将较短文本b的第一个字符与a的第一个字符对齐,基于较短文本的长度,计算较长文本中与较短文本长度重合部分的字形相似值和字音相似值,并记录; 步骤S403:较短文本b的最后一位字符是否与较长文本a的最后一位字符位置对齐,如果是,执行步骤S405,如果否,执行步骤S404; 步骤S404:将b的位置向右移动一个字符计算重合部分的字形相似度和字音,并记录; 步骤S405:记录最大的字形相似度作为两个文本a和b的字形相似度x,最高的字音相似度作为两个文本a和b的字音相似度y; 具体地,步骤S402-步骤S405描述了当第二文本与预定义文本的长度不一致时,计算第二文本与预定义文本相似值的方法的示例流程,以下举例说明上述步骤; 仍以第二文本为“小康健设”,预定义文本为“丹乌市小康建设集团股份有限公司”举例说明;可见第二文本为较短文本,预定义文本为较长文本; 1)固定较长文本预定义文本a的位置,将较短文本第二文本b的第一个字符与较长文本预定义文本a的第一个字符对齐,即,将第二文本与预定义文本的第一个字符对齐,然后在较长的预定义文本中,从左到右截取与较短文本长度相同的文本,即截取与较短的第二文本相同长度的文本,第二文本的长度为4,则较短文本长度为4,则从预定义文本的预处理文本从左到右截取较短文本长度为4后得到的文本为“丹乌市小”;其中,“丹乌市小”为截取与较短文本长度相同的临时文本;进一步地,计算“小康健设”与“丹乌市小”的字形相似值和字音相似值,并记录该字形相似值和字音相似值;计算字形相似值的方法与步骤S201-步骤S204一致,计算字音相似值的方法与步骤S301-步骤S304一致,在此不再赘述; 2)基于较长文本预定义文本,将较短文本第二文本b的位置向右移动一个字符后,计算重合部分的字形相似度和字音,即,将较长文本的字符向右移动一位后,截取与较短的第二文本相同长度的文本,将较长文本预定义文本的字符向右移动一位后,从预定义文本截取的文本为“乌市小康”;其中,“乌市小康”为截取的与较短文本长度相同的临时文本;计算“小康健设”与“乌市小康”的字形相似值和字音相似值,并记录该字形相似值和字音相似值;即,基于所述较短文本和所述临时文本,分别计算所述较短文本与所述临时文本的字形相似值和字音相似值;计算字形相似值的方法与步骤S201-步骤S204一致,计算字音相似值的方法与步骤S301-步骤S304一致,在此不再赘述; 3)重复1)-2)步骤分别计算“小康健设”与“市小康建”、“小康健设”与“小康建设”、“小康健设”与“康建设集”、“小康健设”与“建设集团”、“小康健设”与“设集团股”、“小康健设”与“集团股份”、“小康健设”与“团股份有”、“小康健设”与“股份有限”、“小康健设”与“份有限公”、“小康健设”与“有限公司”的字形相似值和字音相似值;并判断较短文本b的最后一位字符是否与较长文本a的最后一位字符位置是否对齐,例如,移动后较长文本后面的长度是否与较短文本的长度一致,如果一致,移动和计算停止并记录上述每一组文本的字形相似值和字音相似值;计算字形相似值的方法与步骤S201-步骤S204一致,计算字音相似值的方法与步骤S301-步骤S304一致,在此不再赘述; 4)取1)-3)中得到的字形相似值的最大值、字音相似值最大值; 步骤S406:利用公式:相似值=0.2x+0.6y+0.2*(1-(z/len(a)))计算第二文本长度与预定义文本相似值; 具体地,当第二文本长度与预定义文本长度不一致时,计算第二文本长度与预定义文本相似值的示例公式为:相似值=0.2x+0.6y+0.2*(1-(z/len(a))),其中x为经过步骤S402-步骤S405计算取得的字形相似值的最大值,y为经过步骤S402-步骤S405计算取得的字音相似值的最大值;z为第二文本长度与预定义文本长度的差值,len(a)表示为较长文本的长度。 可以理解的是,当第二文本长度与预定义文本长度一致时,计算第二文本长度与预定义文本相似值的示例公式可以为:相似值=0.3x+0.7y,其中x为字形相似值,y为字音相似值。 步骤S407:输出相似度; 由此可见,获取经过步骤S401-步骤S406得到的相似值;例如:获取第二文本“小康健设”与预定义文本“丹乌市小康建设集团股份有限公司”的相似值,进一步利用步骤S406所描述的示例公式计算第二文本“小康健设”与预定义文本“丹乌市小康建设集团股份有限公司”的相似值为0.81,假设预定义相似阈值为0.8;0.81>0.8,即当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,即,预定义文本“丹乌市小康建设集团股份有限公司”为第二文本“小康健设”的校正文本。 即,计算所述第二文本与所述预定义文本的相似值,包括: 当所述第二文本的长度和所述预定义文本的长度不一致时,根据较长文本中字符顺序,从左到右依次截取与较短文本长度相同的临时文本,基于所述较短文本和所述临时文本,分别计算所述较短文本与所述临时文本的字形相似值和字音相似值,根据字形相似值的最大值以及字音相似值的最大值,计算所述第二文本与所与所述预定义文本的相似值。 进一步地,上述步骤描述了第二文本与一个较长预定义文本的相似值的计算流程,可以理解的是,类似地,获取预定义集合中的各个预定义文本,分别计算第二文本与每一个预定义文本的相似值,即,当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,包括: 获取所述第二文本与各个所述预定义文本的所述相似值,选取所述相似值的最大值与预定义相似阈值进行对比,当所述相似值的最大值不小于所述预定义相似阈值时,将所述相似值的最大值所对应的所述预定义文本作为所述第二文本的所述校正文本。 当所述相似值小于预定义相似阈值时,标记所述第二文本为待校正的文本;进一步地对所述第二文本进行校正、核对和修改。 如图5所示,本发明实施例提供了一种文本校正的装置500,包括:文本处理模块501、文本相似值计算模块502和校正文本获取模块503;其中, 所述文本处理模块501,用于获取第一文本,去除所述第一文本的非关键信息,形成第二文本; 所述文本相似值计算模块502,用于在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值; 所述校正文本获取模块503,用于当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。 可选地,所述文本处理模块501,用于获取第一文本,去除所述第一文本的非关键信息,形成第二文本,包括:去除所述第一文本的符号、固定特征文本中的任意一种或者多种非关键信息,形成所述第二文本。 可选地,所述文本相似值计算模块502,用于计算所述第二文本与所述预定义文本的相似值,包括: 分别获取所述预定义文本集合中的预定义文本,计算所述第二文本与所述预定义文本的字形相似值、所述第二文本与所述预定义文本的字音相似值,根据所述字形相似值和所述字音相似值,计算所述第二文本与所述预定义文本的相似值。 可选地,所述文本相似值计算模块502,用于计算所述第二文本与所述预定义文本的字形相似值,包括: 获取所述第二文本以及所述预定义文本所包含字符的结构、四角号码和笔画数,形成所述字符的字形标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字形标识并计算所述字符的字形相似值,根据各个所述字符的所述字形相似值的平均值,形成所述第二文本与所述预定义文本的所述字形相似值。 可选地,所述文本相似值计算模块502,用于计算所述第二文本与所述预定义文本的字音相似值,包括: 获取所述第二文本与所述预定义文本所包含字符的声母、韵母、辅音和声调,形成所述字符的字音标识,基于字符顺序依次对比所述第二文本的字符和所述预定义文本的字符的所述字音标识并计算所述字符的字音相似值,根据各个所述字符的所述字音相似值的平均值,形成所述第二文本与所述预定义文本的所述字音相似值。 可选地,所述文本相似值计算模块502,用于计算所述第二文本与所述预定义文本的相似值,包括: 当所述第二文本的长度和所述预定义文本的长度不一致时,根据较长文本中字符顺序,从左到右依次截取与较短文本长度相同的临时文本,基于所述较短文本和所述临时文本,分别计算所述较短文本与所述临时文本的字形相似值和字音相似值,根据所述字形相似值的最大值以及所述字音相似值的最大值,计算所述第二文本与所与所述预定义文本的所述相似值。 可选地,所述校正文本获取模块503,用于当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本,包括: 获取所述第二文本与各个所述预定义文本的所述相似值,选取所述相似值的最大值与预定义相似阈值进行对比,当所述相似值的最大值不小于所述预定义相似阈值时,将所述相似值的最大值所对应的所述预定义文本作为所述第二文本的所述校正文本。 可选地,所述校正文本获取模块503,用于当所述相似值小于预定义相似阈值时,标记所述第二文本为待校正的文本。 本发明实施例还提供了一种文本校正的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。 本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。 图6示出了可以应用本发明实施例的文本校正的方法或文本校正的装置的示例性系统架构600。 如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。 用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用,例如:信息管理客户端、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。 终端设备601、602、603可以是具有显示屏并且支持信息管理客户端的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。 服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所输入的文本数据提供后台计算和管理的服务器。后台管理服务器可以对接收到的文本数据进行对比和计算等处理,并将处理结果反馈给终端设备。 需要说明的是,本发明实施例所提供的文本校正的方法一般由服务器605执行,相应地,文本校正的装置一般设置于服务器605中。 应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。 下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。 如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。 以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。 特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。 需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。 附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文文本处理模块、文本相似值计算模块和校正文本获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本相似值计算模块还可以被描述为“根据文本包含的字符的字形相似值和字音相似值,计算文本相似值的模块”。 作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取第一文本,去除所述第一文本的非关键信息,形成第二文本;在预定义文本集合中查找与所述第二文本匹配的预定义文本,当查找不到与所述第二文本匹配的所述预定义文本时,计算所述第二文本与所述预定义文本的相似值;当所述相似值不小于预定义相似阈值时,确定所述预定义文本为所述第二文本的校正文本。 通过对输入文本进行预处理并通过计算预处理后的输入文本与标准库中的文本的相似值,确定标准库中输入文本所对应的文本,从而降低了数据复核和输入数据的工作量,提高了数据录入的准确率。 上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
韵母
替代字符
韵母
替代字符
韵母
替代字符
a
1
ui
8
en
g
o
2
ao
9
in
h
e
3
ou
a
un
i
i
4
iu
b
vn
j
u
5
ie
c
ang
f
v
6
ve
d
eng
g
ai
7
er
e
ing
h
ei
n
an
f
ong
k
ian
m