一种基于云端的智能释义注音系统

文档序号:1414307 发布日期:2020-03-10 浏览:3次 >En<

阅读说明:本技术 一种基于云端的智能释义注音系统 (Cloud-based intelligent paraphrasing and phonetic notation system ) 是由 游险峰 于 2018-08-28 设计创作,主要内容包括:本发明公开了一种基于云端的智能释义注音系统,包括客户端与服务器,所述客户端包括古文录入单元、文本预处理单元、业务请求单元、请求接收单元与本地呈现单元,所述服务器包括接收请求单元、逻辑处理单元、词典检索单元、词典单元与词典管理单元。本发明使得读者能够顺畅的浏览和诵读古文文章,极大的降低了学习成本,极大的提升了阅读体验。(The invention discloses an intelligent paraphrasing and phonetic notation system based on a cloud, which comprises a client and a server, wherein the client comprises an ancient writing input unit, a text preprocessing unit, a service request unit, a request receiving unit and a local presentation unit, and the server comprises a receiving request unit, a logic processing unit, a dictionary retrieval unit, a dictionary unit and a dictionary management unit. The invention enables readers to browse and read ancient articles smoothly, greatly reduces learning cost and greatly improves reading experience.)

一种基于云端的智能释义注音系统

技术领域

本发明涉及文字理解技术领域,尤其涉及一种基于云端的智能释义注音系统。

背景技术

当代的推行汉字简化,利于汉字推广的同时,对繁体字的阅读能力在下降。尤其是存在大量的生僻字、多音字、通假字、异体字,以及没有断句、标音的古文。

古文原著没有电子字,呈现形式都是以纸质作品为主,不方便读者检索,再加上没有标点,没有断句,而且繁体字不是官方公布、通行的字体,使大多数阅读者无法问津浩瀚古文,在古文中存在大量的不常见字、生僻字、通假字和异体字,从而让读者对古文的阅读望而止步。

对古文的阅读理解困难,在很大程度上阻遏了阅读兴趣,从而间接减退了人们了解古人宝贵文化的机会。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于云端的智能释义注音系统,其使得读者能够顺畅的浏览和诵读古文,极大的降低了学习成本,极大的提升了阅读体验。

为了实现上述目的,本发明采用了如下技术方案:

一种基于云端的智能释义注音系统,包括客户端与服务器,所述客户端包括古文录入单元、文本预处理单元、业务请求单元、请求接收单元与本地呈现单元,所述服务器包括接收请求单元、逻辑处理单元、词典检索单元、词典单元与词典管理单元。

优选地,所述文本预处理单元是用来将古文的繁体内容转换为对应的简体字内容,具体步骤如下:

录入古文全文,用于解析获取对应的古文文字文本;

标点符号移除,根据古文全文,进行符号移除处理,段落的处理,提取相应的汉字用于繁简转换;

转换汉字单元提取,从全文开始处,每次提取一个汉字,作为一个转换单元;

发送请求检索单元匹配,根据检索单元,向云端处理器或本地处理器发起检索请求,查询是否存在该检索单元的简体字,若有些生僻字和异形字没有对应的字库编码,将该字以图片形式作为检索单元;

处理器检索单元请求,根据检索单元数组,服务器依次检查该检索单元是否为古文专有词汇,是否为一般的繁体字,是否为生僻字,是否为异形字,词典中是否存在该检索单元,如果存在则返回请求的对应简体文字和相应的解释;

若转换的繁体字找到多个匹配的的简体字,则通过增加转换繁体字的长度转换为词组,继续提交检索请求,直至检索单位为唯一对应的简体汉字。

优选地,所述词典单元包括词典、古文词典以及生僻字的图片文字词典,所述词典管理单元主要用来管理维护佛学专有词典以及生僻字图片文字,词典位于云端,或者布置于本地,主要用于接收查询请求,其用来接收客户端的繁简转换和注音请求,通过匹配算法,查询和搜索词典中的对应条目,并将对应的发回请求端;

古文中存在生僻字,没有对应的字库编码,对于该部分请求,检索单元以生僻字的字体图片作为检索请求,处理端需要对图片做特征提取成对应的电子字再做检索匹配,若自动提取失败,人工对这部分内容做人工标记,并将人工解析到的内容反馈回请求端。

优选地,所述本地呈现单元中包括注音单元,具体流程如下:

录入古文全文,用于解析获取对应的古文文字文本;

标点符号移除,根据古文全文,进行符号移除处理,提取相应的汉字用于发音标注转换;

发音标注单元提取,从全文开始处,依次每次最多截取七个汉字,作为一个发音标注单元词组;

发送发音标注单元词组请求,根据请求词组,向云端处理器或本地处理器发起检索请求,查询是否存在该标注单元的拼音;

服务器根据发音标注单元词组单元请求,检索对应词典,匹配后到对应内容后,服务器将处理单元的标注的发音返回请求端;

若标注单元未全部标注拼音,则通过减少检索单元词组的长度和未标注拼音的词组,继续提交标注请求,直至标注完全文拼音为止。

优选地,所述注音单元包括发音标注请求处理单元,所述发音标注请求处理单元处于云端,或者布置于本地,主要用于处理发音标注的,处理端依次分析,请求的发音标注单元,是否为多音字,是否为轻音,是否为词组发音,是否有专有名词发音,之后会将最佳匹配的发音标注返回,若为多音标注,也会将其他发音返回请求端,给请求端做二次参考。

本发明与现有技术相比,其有益效果为:系统自动进行大数据处理,集成各类字典,逐字添加释义,智能辨析拼音,使得读者能够顺畅的浏览和诵读古文,极大的降低了学习成本,极大的提升了阅读体验。

附图说明

图1为本发明提出的一种基于云端的智能释义注音系统的构架图;

图2为本发明提出的一种基于云端的智能释义注音系统的客户端的单元组件结构图;

图3为本发明提出的一种基于云端的智能释义注音系统的服务器的单元组件结构图;

图4为本发明提出的一种基于云端的智能释义注音系统的注音流程图;

图5为本发明提出的一种基于云端的智能释义注音系统的古文释义流程图;

图6为本发明提出的一种基于云端的智能释义注音系统的古文词典优化流程图。

图中:110客户端、120服务器、111佛典录入单元、112文本预处理单元、113业务请求单元、114请求接收单元、115本地呈现单元、121接收请求单元、122逻辑处理单元、123词典检索单元、124词典单元、125词典管理单元。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

如图1所示,根据该实施例的系统架构可以包括客户端110和服务器120。客户端主要处理用户的交互内容,如古文的录入、展示,以及负责与读者或用户交互等,服务器主要负责对古文的解析。

根据应用场景的不同,服务器可布置于本地和云端远程,若服务器布置在本地,则于客户端联系不需要通过网络,不需要网络介质,若布置在云端,则客户端与服务器的通讯网络通讯。在某些无网络的环境下,可将服务器布置于本地,仍然可以让本实施例正常使用。

如图2所示,客户端110主要由以下几部分组成,古文录入单元111,文本预处理单元112,业务请求单元113,请求接收单元114,本地呈现单元115。

在古文录入单元111中,该软件组件单元主要负责古文文本导入工作,通过该单元可将古文以文本或图片的形式导入到系统中,用于解析获取对应的古文文字文本。

在文本预处理单元112中,会对导入的古文古文作一些预处理,如文本的标点符号,特殊符号,段落及图片的初步整理与过滤,根据古文全文,进行符号移除处理,段落的处理,提取相应的汉字用于繁简转换。

在业务请求单元113中,会根据用户的对古文进行解读或者注音的需求,向服务器请求对应的解读应答。

在请求接收单元114中,会接收服务器的解读应答,回传到本地做本地的进一步解析和处理。

在本地呈现单元115中,会将服务器返回的解读数据,并根据原文做比对,在原文对应的位置增加注音,以及对应的简体中文和解释,并最终呈现出一份完整的古文易于诵读和理解的古文解析文本。

如图3所示,服务器120主要由以下几部分组成,接收请求单元121,逻辑处理单元122,词典检索单元123,词典单元124,词典管理单元125。

在接收请求单元121中,主要负责接收客户端发来的业务请求。客户端可能通过本地或者网络的方式发送解析的业务请求。

在逻辑处理单元122中,主要处理检索单元的逻辑处理部分,逻辑上如何组织检索单元和检索算法以达到更快速准确的检索出对应的信息。

在词典检索单元123中,主要处理如何通过检索词典得到对应的数据信息,通过检索词典找到对应繁体字的读音,简体字和解释,这一块是本公开实施例的重点部分,后面会重点阐该流程。

在词典单元124中,主要为各词典的数据库,包括重点用于古文检索信息检索的古文词典,以及用于通用检索的辞海等常见汉语词典,以及部分无电子编码的生僻字图文词典等数据库。

在词典管理单元125中,主要包括管理词典单元124中的词典,以及维护和修改上的数据库等功能。

如图4所示,该古文注音流程包括操作S210~S292。其中:

在S210操作中,从原始的古文中读取原始的古文数据。

在S220操作中,对原始的古文数据进行预处理,包括移除标点符号等非汉字内容,对换行等段落相关和排版相关的信息进行预处理。

在S230操作中,从S220操作中得到了预处理后的古文,从古文开始处,对需要注音的古文,以最长的七个汉字为注音词组开始做注音处理,首次不以最小一个汉字作为注音单元的原因是,汉字中,尤其古文当中,存在大量的多音字,而处理多音字比较好的方法是以字的前后为参考标准,特别是词为注音单位,能大大的提高准确度,而在古文中,存在一些比较长的词,去七个字为最长的词能提高注音的准确度,不过提高准确度的同时,在注音的效率上有下降,首次以几个汉字为注音单元词组并不影响这个注音流程,以及本公开实施例的顺利实施。

在S240操作中,当服务器120接收到客户端110的注音请求是,服务器首先开始检索古文词典中是否有相关的匹配内容,古文词典数据库中包含大量古文相关的词汇,包括专有用语,专用人名和专用地名等相关领域的专用的词汇。由于本公开实施例中主要就是古文理解,因此词汇有很高的概率出现在该古文词典中。优先搜索该词典能提高搜索匹配效率。

在S250操作中,当注音请求的词汇没有在S240操作中古文词汇命中时,该词汇很大概率是常见的词汇,这时可以通过传统的词典如《汉语大字典》,《康熙字典》《通假大字典》《辞海》进行注音检索。

在S260操作中,当在古文词典以及传统通用词典都没能检索到该词汇的时候,或者当用户直接提供的是图片文字检索时,会执行到该操作,执行到该操作说明该词汇是生僻字,该生僻字由于没有在国标字符表中,因此在系统中正常显示,因此以图片的形式进行数据库检索。在本公开实施例提供了相当数量的这一类型的生僻字图文用于该检索操作。

在S270操作中,若到该步骤后,提交的词汇还未检索到相应的注音,这时会减少词组中的汉字,作为新的检索单元,重新进行检索,重新开始S240操作。直至整个注音词组单元中有汉字都注音完成,视为该注音步骤成功检索。重新提取新的注音单元进行新的注音操作执行S230操作。若当只有一个汉字,且没在词典中找到对应的注音时,系统会有优化该汉字,通过机器智能学习以及后台人员人工标记的方法,来完成有的注音操作。

在S280操作中,会根据古文这种特殊的文学形式,对其中一些特殊的放音做二次注音修复,如汉字一根据语境可能有yi的轻声发音,二音调发音,以及四音调发音等,在该操作做统一处理。至次以注音词组为单元的注音操作结束。

在S290操作中,检查古文全文是否有还没注音的余下部分,有则将余下未注音的部分继续执行S230操作。没有则古文全文结束。

如图5所示,该古文古文文释义及注释流程包括操作S310~S329,其中:

在S310操作中,从原始的古文中读取原始的古文数据,准备对该古文进行繁简转换及增加注释。

在S320操作中,对原始的古文数据进行预处理,包括移除标点符号等非汉字内容,对换行等段落相关和排版相关的信息进行预处理。

在S330操作中,每次取一个汉字作为一个繁体转换的转换单元,并先服务器发送请求申请。

在S340操作中,首先开始检索专用的古文词典中是否存在该繁体字,存在则将其转换为简体字。

在S350操作中,在古文中,由于存在有一个繁体字根据语境不同可以转换为多个简体字的问题,若该繁体字确实可能转换为多个繁体字,这时需要以词组为单位才能正确的匹配到该繁体字对应的简体字,需要增加增减汉字检索的长度,由之前的单字检索变为多字检索,如操作351。

在S360操作中,若在专用的古文词典中,未出现该繁体字,则在传统通用词典中检索是否存在该简体字。

在S370操作中,当在古文词典以及传统通用词典都没能检索到该词汇的时候,或者当用户直接提供的是图片文字检索时,会执行到该操作,执行到该操作说明该词汇是生僻字,该生僻字由于没有在国标字符表中,因此在系统中正常显示,因此以图片的形式进行数据库检索。在本公开实施例提供了相当数量的这一类型的生僻字图文用于该检索操作。

在S380操作中,若当只有一个汉字,且没在词典中找到对应的繁体字转为简体字时时,会先后台提交人工标注申请标记,来完成有的繁体转换操作。

在S390操作中,当找到一个汉字的繁体中文时,会将该繁体中文在词典中的注释等理由阅读的信息也返回客户端,更有利于读者理解古文

在S391操作中,检查古文全文是否有还没注音的余下部分,有这将余下未注音的部分继续执行S230操作。没有则古文全文繁简转换及注释添加结束,转换结束后古文中的繁简关系一一确定,简体版本古文也可以很方便的转换为原版本古文。

如图6所示,该古文词典优化流程包括操作S410~S480。

由于本发明中提到的发明的系统,包括多古文古文的注音,古文古文的繁简的相互转换,包括一个繁体字对应多个简体字版本,以及一个简体字版本对应多个繁体版本的查询和检索很大部分依赖于自定义生成的古文词典,因此古文词典数据库的实时优化显得异常重要。

在S410操作中,根据需求进行新一轮的古文词典优化操作。

在S420操作中,需要获取已经校对的已有的释义的古文文章作为词典的数据训练集。

在S430中,选择一种机器学习的人工智能算法的数据预测模型隐马尔可夫模型对数据做词频统计分析。

在S440中,根据词频统计分析中,可以大致的获取到每个词组的组合存在文本的概率统计。

在S450中,根据人工整理出来的数据库规则,该数据库规则中定义了繁体字对应的有读音,和简体字的有读音,该繁体字是否轻音是否为多音字,是否为特殊的繁转简,是否有多个异型字,是否有通假字,是否可直接繁转简等规则,对词频统计出来的结果,做二次校正,在词频统计中调整对应的词组的概率分布。生成新的词频统计

在S460中,根据新的词频统计,以词典的组织形式重新编成新的古文词典。

在S470中,用新的古文词典去解析新的古文,可以得到释义过的新的古文。

在S480中,根据优化古文词典的需求,可以用的新得到释义过的新的古文进行新一轮的古文词典的优化,来提高古文词典的准确率。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文本相似度的获取方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!