错别字识别方法、装置、设备及可读存储介质

文档序号:1889942 发布日期:2021-11-26 浏览:3次 >En<

阅读说明:本技术 错别字识别方法、装置、设备及可读存储介质 (Wrongly written character recognition method, device, equipment and readable storage medium ) 是由 王晨琛 于 2021-03-01 设计创作,主要内容包括:本申请提供一种错别字识别方法、装置、设备及可读存储介质,涉及计人工智能技术领域,以提升识别媒体内容中的错别字的准确度。该方法包括:获取针对已发布的媒体内容的目标评论数据,根据所述目标评论数据包含的各个词语的上下文信息,提取所述目标评论数据对应的目标文本特征,基于所述目标文本特征,确定所述目标评论数据中包含有针对错别字的目标评论内容,基于所述目标评论内容,确定所述媒体内容中的错别字信息。该方法中能够识别出历史媒体内容中未出现过的错别字或特殊词,进而提升识别媒体内容中的错别字的准确度,且在识别错别字的过程中,不需要对整个媒体内容进行检测,提升了识别媒体内容中的错别字的效率。(The application provides a wrongly written character recognition method, a wrongly written character recognition device, wrongly written character recognition equipment and a readable storage medium, and relates to the technical field of artificial intelligence so as to improve the accuracy of recognizing wrongly written characters in media contents. The method comprises the following steps: the method comprises the steps of obtaining target comment data aiming at published media content, extracting target text features corresponding to the target comment data according to context information of words contained in the target comment data, determining target comment content aiming at wrongly written words contained in the target comment data based on the target text features, and determining wrongly written word information in the media content based on the target comment content. The method can identify the wrongly written characters or special words which do not appear in the historical media content, so as to improve the accuracy of identifying the wrongly written characters in the media content, and in the process of identifying the wrongly written characters, the whole media content does not need to be detected, so that the efficiency of identifying the wrongly written characters in the media content is improved.)

错别字识别方法、装置、设备及可读存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种错别字识别方法、装置、设备及可读存储介质。

背景技术

相关技术中一般预先创建错别字候选集,通过替换媒体内容中在错别字候选集中出现的候选词,基于上述候选词对媒体内容的文本通顺度的影响程度,判断上述候选词是否为错别字,但这种方法只能检测出错别字候选集中已有的错别字,并不能发现错别字候选集中未出现过的错别字或特殊词,因此识别错别字的范围受限,如何降低识别错别字的局限性以提升识别错别字的准确度,是一个需要考虑的问题。

发明内容

本申请实施例提一种错别字识别方法、装置、设备及可读存储介质,用于提升识别媒体内容中的错别字的准确度。

本申请第一方面,提供一种错别字识别方法,包括:

获取针对已发布的媒体内容的目标评论数据;

根据所述目标评论数据包含的各个词语的上下文信息,提取所述目标评论数据对应的目标文本特征;

基于所述目标文本特征,确定所述目标评论数据中包含有针对错别字的目标评论内容;

基于所述目标评论内容,确定所述媒体内容中的错别字信息。

本申请第二方面,提供一种错别字识别装置,包括:

数据获取单元,用于获取针对已发布的媒体内容的目标评论数据;

特征提取单元,用于根据所述目标评论数据包含的各个词语的上下文信息,提取所述目标评论数据对应的目标文本特征;

第一识别单元,用于基于所述目标文本特征,确定所述目标评论数据中包含有针对错别字的目标评论内容;

第二识别单元,用于基于所述目标评论内容,确定所述媒体内容中的错别字信息。

在一种可能的实现方式中,所述特征提取单元具体用于:

将所述目标评论数据输入已训练的评论数据分类模型;

基于所述评论数据分类模型中的语言学习子模型,对所述目标评论数据包含的各个词语的上下文信息进行特征提取,获得所述目标评论数据对应的目标文本特征;

其中,所述语言学习子模型是将历史评论数据作为训练样本,基于所述训练样本包含的各个词语的上下文信息,对所述语言学习子模型进行特征学习的训练得到的。

在一种可能的实现方式中,所述评论数据分类模型还包括预测子模型,则所述第一识别单元具体用于:

将所述目标文本特征输入所述预测子模型;

基于所述预测子模型已学习的第一关联度,预测所述目标文本特征与目标数据识别结果之间的第二关联度,所述第一关联度是基于历史评论数据对应的历史文本特征和所述目标数据识别结果之间的关联程度确定的,所述目标数据识别结果用于表征文本数据中包含有针对错别字的评论内容;

若所述第二关联度大于关联度阈值,则确定所述目标评论数据中包含所述目标评论内容。

在一种可能的实现方式中,所述特征提取单元还用于通过如下方式,对所述语言学习模型进行训练:

基于历史评论数据集合,对所述语言学习子模型进行训练操作,一次训练操作包括:针对从所述历史评论数据集合获得的各个历史评论数据,分别执行文本预测操作,确定所述各个历史评论数据各自对应的预测偏差;并基于各个历史评论数据各自对应的预测偏差,对所述语言学习子模型进行参数调整;

其中,所述文本预测操作包括:

按照所述各个历史评论数据中一个历史评论数据的语言形式关联的分词规则,对所述一个历史评论数据进行分词处理,获得所述一个历史评论数据包含的至少一个词语;

基于预设词语掩膜,屏蔽所述至少一个词语中的部分词语;以及

确定所述部分词语在所述一个历史评论数据中的上下文信息,并从预配置的候选词库中,选取出与确定的上下文信息之间的匹配度满足匹配度条件的候选词语,所述候选词库基于所述历史评论数据集合确定;

将所述部分词语和选取出的候选词语之间的偏差信息,确定为所述一个历史评论数据对应的预测偏差。

在一种可能的实现方式中,所述第二识别单元具体用于:

基于用于识别所述错别字信息的预配置的正则表达式,对所述目标评论内容进行解析,获得相应的解析结果;

基于所述解析结果,确定所述目标评论内容关联的至少一个错别字,和所述至少一个错别字在所述媒体内容中的文本位置信息;

将所述至少一个错误字和所述文本位置信息,确定为所述媒体内容中的错别字信息。

在一种可能的实现方式中,所述第二识别单元进一步用于:

若基于所述解析结果未获得所述错别字信息,则基于预配置的错别字检测规则,对所述媒体内容进行错别字检测,获得检测结果;

根据所述检测结果,确定所述媒体内容中是否包含对应的错别字信息。

在一种可能的实现方式中,所述第二识别单元还用于:

获取发布所述目标评论数据的目标账户的账户信息;

基于所述账户信息,确定所述目标评论数据的置信度;

确定所述置信度达到置信度阈值时,基于所述目标评论内容,确定所述媒体内容中的错别字信息。

本申请第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

本申请第四方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面中提供的方法。

本申请第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面所述的方法。

由于本申请实施例采用上述技术方案,至少具有如下技术效果:

本申请实施例中一方面,直接基于媒体内容的评论数据中的信息,识别媒体内容中的错别字信息,该过程中不用预先采集错别字,创建错别字候选集,能够识别出历史媒体内容中未出现过的错别字或特殊词,进而提升识别媒体内容中的错别字的准确度;另一方面,本申请实施例中在识别错别字的过程中,只需要对评论数据进行识别,而不需要对整个媒体内容进行检测,明显减少了错别字识别的检测范围,提升了识别媒体内容中的错别字的效率。

附图说明

图1为本申请实施例提供的一种错别字识别的应用场景的示意图;

图2为本申请实施例提供的一种错别字识别方法的流程的示意图;

图3为本申请实施例提供的一种获取针对媒体内容的评论数据的过程的示意图;

图4为本申请实施例提供的一种评论数据分类模型的结构的示意图;

图5为本申请实施例提供的一种语言学习子模型的结构的示例图;

图6为本申请实施例提供的针对语言学习子模型的一次训练操作的流程的示意图;

图7为本申请实施例提供的一种错别字识别方法的完整的流程示意图;

图8为本申请实施例提供的一种错别字识别方法的完整的流程框图;

图9为本申请实施例提供的一种错别字识别装置的结构示意图;

图10为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的部分概念进行说明。

1)媒体内容

在自媒体时代,内容一般可以指代音频、视频、图文等;本申请实施例中媒体内容可以但不局限于为内容平台(如可以但不局限于包括内容分享系统或内容推荐系统等)向账户推送的内容,媒体内容可以但不局限于包括文本、音频、视频、文章、图文、图片等中至少一种信息或任意组合得到的多媒体资源;其中,本申请实施例中可以针对媒体内容中的文本信息进行错别字的识别,如媒体内容为文章或图文时,上述文本信息可以是文章或图文中的文字,媒体内容为图片时,上述文本信息可以是图片中的描述文本,媒体内容为视频时,上述文本信息可以但不局限于包括视频中的描述文本(如电视剧的旁白信息或人物介绍信息等)或者视频中的字幕等。

2)评论数据和目标评论数据

本申请实施例中的评论数据可以但不局限于包括接收媒体内容的账户,针对媒体内容的评论信息;目标评论数据为针对需要进行错别字识别的媒体内容的评论数据,也可以理解为当前处理的评论数据等。

3)Bert(Bidirectional Encoder Representations from Transformer)模型

Bert模型为双向Transformer的编码网络(Encoder);Bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(Representation),然后将文本的语义表示在特定自然语言处理(Natural Language Processing,NLP)任务中进行微调,最终应用于该特定NLP任务。

4)自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(MachineLearning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习或深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

下面对本申请的设计思想进行说明。

相关技术中在对媒体内容进行错别字识别的过程中,一般通过收集已知的错别字样本,建立包含出现频率较高的错别字的候选集,通过某些方式替换媒体内容中在候选集中出现的候选词,进而基于被替换的候选词对媒体内容的文本通顺度的影响程度,判断被替换的候选词是否为错别字,这种方法只能检测出错别字候选集中已有的错别字,并不能发现错别字候选集中未出现过的错别字,即无法发现样本中未出现过的错别字,也无法发现特殊的新词(如可以但不局限于包括人名、互联网中新出现的网络用语等)等存在强先验知识的特殊词,无法发现这类特殊词是否错误,例如“A1的妻子是A2”中,A2是一个正常的人名,但A2并不是A1的妻子,目前的错别字识别方法中,只能识别出A2为一个正确的人名,但是并不能识别出A2是不是A1的妻子。

鉴于此,发明人设计了一种错别字识别方法、装置、设备及可读存储介质,用于提升识别媒体内容中的错别字的效率;该方法中考虑到针对媒体内容的评论数据中可能包含与错别字相关的信息,因此本申请实施中设计通过针对媒体内容的评论数据中的信息,识别媒体内容中是否包含错别字;具体地,获取针对已发布的媒体内容的目标评论数据,根据目标评论数据包含的各个词语的上下文信息,提取目标评论数据对应的目标文本特征,进而基于目标文本特征,确定目标评论数据中是否包含有针对错别字的目标评论内容,在确定目标评论数据中包含有针对错别字的目标评论内容时,可以基于上述目标评论内容,确定媒体内容中的错别字信息。

作为一种实施例,本申请实施例中对媒体内容中的文本信息的语言形式不做限定,本领域的技术人员可根据实际需求设置,上述文本信息的语言形式可以但不局限于包括汉语、英语、韩语、日语、意大利语、印地语等至少一种语言形式;对针对媒体内容的评论数据的语言形式也不做过多限定,本领域的技术人员可根据实际需求设置,上述评论数据的语言形式可以但不局限于包括汉语、英语、韩语、日语、意大利语、印地语等至少一种语言形式;以下内容中以汉语为例,对本申请实施例提供的错别字识别方法进行示例性说明。

更进一步地,为了进一步提升对媒体内容进行错别字识别的准确度,本申请实施例中针对媒体内容的评论数据的语言形式,和媒体内容中的文本信息的语言可以一致。

为了更清楚地理解本申请的设计思路,以下对本申请实施例中的应用场景进行示例介绍。

请参照图1,表示一种错别字识别的应用场景,该应用场景中可以包括终端设备110、内容服务器120和错别字识别服务器130;终端设备110、内容服务器120和错别字识别服务器130之间可以通过网络进行通信,其中:

终端设备110用于接收媒体内容,并将媒体内容发送给内容服务器120;终端设备110也可以接收上述内容服务器120分发的媒体内容,以及响应接收媒体内容的账户针对已发布的媒体内容的评论操作,获得针对媒体内容的评论数据,并将评论数据发送给错别字识别服务器130。

作为一种实施例,终端设备110上可以安装内容平台的客户端,终端设备110可以通过上述客户端向内容服务器120发布媒体内容,以及通过上述客户端接收内容服务器120分发的媒体内容。

内容服务器120用于接收终端设备110上传的媒体内容,以及将媒体内容分发给一个或多个终端设备110。

错别字识别服务器130用于获取针对已发布的媒体内容的目标评论数据,根据目标评论数据包含的各个词语的上下文信息,提取上述目标评论数据对应的目标文本特征,在基于上述目标文本特征,确定上述目标评论数据中包含有针对错别字的目标评论内容时,基于上述目标评论内容,确定上述媒体内容中的错别字信息。

本申请实施例中的终端设备110可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机或摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。

本申请实施例中的内容服务器120和错别字识别服务器130可以是同一个服务器,也可以是不同的服务器;且内容服务器120和错别字识别服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务技术中提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的多个云服务器(如内容服务器120可以但不局限于包括图中示意出的服务器120-1、服务器120-2或服务器120-3;如错别字识别服务器130可以但不局限于包括图中示意出的服务器130-1、服务器130-2或服务器130-3);上述内容服务器120的功能可以由一个或多个云服务器实现,还可以由一个或多个云服务器集群实现等;上述错别字识别服务器130的功能可以由一个或多个云服务器实现,还可以由一个或多个云服务器集群实现等。

其中,云服务技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云服务技术为重要支撑;技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云服务技术来实现。

基于图1的应用场景,下面对本申请实施例中涉及的一种错别字识别方法进行示例说明;请参照图2,表示本申请实施例设计的一种错别字识别方法的示意图,具体包括如下步骤:

步骤S201,获取针对已发布的媒体内容的目标评论数据。

作为一种实施例,上述目标评论数据可以但不局限于是从上述媒体内容关联的评论数据集合中选取的,上述评论数据集合中包括针对上述媒体内容的评论数据;上述评论数据中可以包括针对上述媒体内容的评论内容,上述评论数据中还可以包括上述媒体内容的内容标识等信息、发布上述评论数据的账户的账户信息、发布上述评论数据的时间信息等至少一个信息。

作为一种实施例,上述评论数据可以是上述终端设备110采集的,具体地,可参见图3中的(a),接收媒体内容的账户可以针对媒体内容触发评论操作,终端设备110可以响应于上述评论操作,获取上述评论操作指示的评论内容作为评论数据,并将上述评论数据发送给错别字识别服务器130;进而错别字服务器130可以接收各个终端设备发送的评论数据,将针对同一媒体内容的评论数据,记录到该媒体内容关联的评论数据集合中,进而从上述评论数据集合中选取评论数据作为目标评论数据。

作为一种实施例,上述评论数据也可以是上述错别字识别服务器130直接采集的;具体地,可参见图3中的(b),接收媒体内容的账户可以针对媒体内容触发评论操作,终端设备110可以响应于上述评论操作,向错别字识别服务器130发送评论指令;进而错别字服务器130可以响应于上述评论指令,获取上述评论操作指示的评论内容作为评论数据,以及将针对同一媒体内容的评论数据,记录到该媒体内容关联的评数据集合中,进而从上述评论数据集合中选取评论数据作为目标评论数据。

步骤S202,根据上述目标评论数据包含的各个词语的上下文信息,提取上述目标评论数据对应的目标文本特征。

作为一种实施例,为了提升提取上述目标文本特征的准确度,本申请实施例中还可以利用模型提取上述目标文本特征,如本申请实施例中可以但不局限于通过向量空间模型(Vector Space Model,VSM)、概率统计模型对文本或已训练的神经网络模型等中的至少一种方式对目标评论数据进行特征提取,获取目标文本特征;其中,提取目标文本特征的更详细的方法将在下文中做进一步说明。

本申请实施例中,对上述神经网络模型不做限定,本领域的技术人员可根据实际需求设置,上述神经网络模型可以但不局限于包括卷积神经网络(Convolutional NeuralNetwork,CNN)、循环神经网络(Recurrent Neural Network,RNN)、语言学习模型(Bert模型)、Ernie模型、Albert模型等。

步骤S203,基于上述目标文本特征,确定上述目标评论数据中包含有针对错别字的目标评论内容。

为了便于描述,本申请实施例的以下内容中将包含有针对错别字的目标评论内容的目标评论数据称为错别字评论数据,将未包含有针对错别字的目标评论内容的目标评论数据称为非错别字评论数据;为了提升识别出目标评论数据中的错别字评论的效率和准确度,本申请实施例中可以但不局限于通过已训练的评论数据识别模型,识别出目标评论数据中的错别字评论和非错别字评论。

步骤S204,基于上述目标评论内容,确定上述媒体内容中的错别字信息。

作为一种实施例,为了提升基于目标评论内容确定媒体内容中的错别字信息的效率和准确度,本申请实施例中可以基于用于识别上述错别字信息的预配置的正则表达式,对目标评论内容进行解析,基于解析结果获取媒体内容中的错别字信息;其中,基于正则表达式确定出媒体内容中的错别字信息的具体方式,将在下文中进行说明。

本申请实施例的以下内容,对步骤S203中涉及的上述评论数据分类模型做进一步说明。

作为一种实施例,本申请实施例提供一种评论数据分类模型的示例,请参见图4,提供一种评论数据分类模型的结构示意图,该评论数据分类模型中可以但不局限于包括输入层、语言学习子模型、预测子模型和输出层,其中:

输入层用于接收目标评论数据,并将目标评论数据传递给语言学习子模型;输出层用于输出预测子模型的预测结果。

上述语言学习子模型可以对目标评论数据包含的各个词语的上下文信息进行特征提取,获得目标评论数据对应的目标文本特征;为了进一步提升获取的目标文本特征的准确度,语言学习子模型可以分别对上述各个词语的上下文信息进行特征提取,获得各个词语各自映射的词语特征向量,进而基于各个词语各自映射的词语特征向量,获得目标文本特征,其中,可以但不局限于将上述各个词语各自映射的词语特征向量的平均值确定为上述目标文本特征;其中,一个上下文信息可以但局限于包括对该词语进行编码(Embedding)后的词语向量、该词语在目标评论数据中的位置信息以及该词语所在的目标评论数据的数据标识等信息中的一个。

作为一种实施例,为了提升语言学习子模型提取目标文本特征的准确度,本申请实施例中可以但不局限于将历史评论数据作为训练样本,基于上述训练样本包含的各个词语的上下文信息,对上述语言学习子模型进行特征学习训练得到的;其中,语言学习子模型在上述训练的过程,可以通过基于历史评论数据中的词语的上下文信息对词语进行预测的方式,学习词语的文本特征,进而训练过程可以提升语言学习子模型提取文本特征的准确度,从而训练后的语言学习子模型提升了提取目标文本特征的准确度。

上述预测子模型可以基于目标文本特征,识别出目标评论数据是错别字评论数据还是非错别字评论数据,具体地,在上述步骤S203中,可以但不局限于将上述语言学习子模型提取的目标文本特征输入上述预测子模型;基于上述预测子模型已学习的第一关联度,预测上述目标文本特征与目标数据识别结果之间的第二关联度,若上述第二关联度大于关联度阈值,则确定上述目标评论数据中包含上述目标评论内容;其中上述第一关联度是基于历史评论数据对应的历史文本特征和上述目标数据识别结果之间的关联程度确定的,上述目标数据识别结果用于表征文本数据中包含有针对错别字的评论内容,即上述目标数据识别结果表征当前处理的评论数据是错别字评论数据;其中,上述预测子模型可以但不局限于为二分类模型或其它分类模型等。

作为一种实施例,本申请实施例中可以首先对语言学习子模型进行训练,得到已训练的语言学习子模型,进而在已训练的语言学习子模型之后,创建用于识别错别字评论数据和非错别字评论数据的预测子模型,得到初始的评论数据分类模型,并对初始的评论数据分类模型进行训练,得到训练后的评论数据分类模型。

以下内容对上述语言学习子模型和评论数据分类模型的训练过程做进一步说明。

首先,对本申请涉及的语言学习子模型的结构进行示例性说明,本申请实施例中涉及的语言学习子模型可以但不局限于是Bert模型、Fast-Bert模型、Tiny-Bert模型等;为便于理解,此处提供一种语言学习子模型的结构示例图,请参见图5,该语言学习子模型中可以包括词语表示层501,特征提取层502和特征输出层503;其中:

上述词语表示层501可以但不局限于用于按照评论数据(如上述目标评论数据或历史评论数据)的语言形式关联的分词规则,对上述评论数据进行分词处理,获得该评论数据包含的至少一个词语,进而通过编码(Embedding)等处理方式,对至少一个词语中各个词语的上下文信息进行处理,得到各个词语的词语表示,如可以但不局限于包括图中示意出的词语表示E1、词语表示E2和词语表示EN(N为正整数)等,其中,上下文信息的说明可参见上述内容,此处不再重复叙述。

特征提取层502可以但不局限于用于通过多层的单元Trm的处理后,针对每个词语的词语表示,分别提取出一个词语特征,如图所示,可以词语表示E1至EN,分别提取出词语特征T1至TN

上述特征输出层503可以但不局限于将特征提取层502提取出的词语特征输出。

其次,对上述语言学习子模型的训练过程进行详细说明:

本申请实施例中可以将历史评论数据作为训练样本,基于上述训练样本包含的各个词语的上下文信息,对上述语言学习子模型进行特征提取训练得到的;具体地,可以但不局限于基于包括多个历史评论数据的历史评论数据集合,对上述语言学习子模型进行至少一次训练操作,获得训练后的语言学习子模型。

作为一种实施例,为了提升语言学习模型提取文本特征的准确度,本申请实施例中可以针对语言学习子模型的训练过程,设置第一训练结束条件,进而在对语言学习子模型进行训练的过程中,在确定满足第一训练结束条件时,输出正在训练的语言学习子模型;

本申请实施例中对上述第一训练结束条件不做过多限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将第一训练结束条件设置为如下的训练结束条件A1至A3中的一种或任意组合:训练结束条件A1)针对上述语言学习子模型的训练操作的次数达到第一次数阈值;训练结束条件A2)对上述语言学习子模型进行训练操作的时长达到第一时长阈值;训练结束条件A3)当前正在训练的语言学习子模型的模型预测误差小于第一预测误差阈值,其中,上述模型预测误差将在下文中做进一步说明。

作为一种实施例,在一次训练操作中,可以利用语言学习子模型,针对从上述历史评论数据集合获得的各个历史评论数据,分别执行文本预测操作,确定语言学习子模型的模型预测误差,并基于模型预测误差对上述语言学习子模型的模型参数进行调整,具体地,请参见图6,提供一次训练操作的流程的示意图,一次训练操作可以但不局限于包括如下步骤S601和S602:

步骤S601,针对从上述历史评论数据集合获得的各个历史评论数据,分别执行文本预测操作,确定上述各个历史评论数据各自对应的预测偏差。

作为一种实施例,一个历史评论数据对应的预测偏差,可以表征通过语言学习子模型,对上述一个历史评论数据中的部分词语进行文本预测的误差信息;在针对一个历史评论数据的文本预测操作中,可以但不局限于基于上述一个历史评论数据中部分词语在上述一个历史评论数据中的上下文信息,对上述部分词语进行预测,具体地,上述文本预测操作可以但不局限于包括如下步骤S6011至步骤S6014。

步骤S6011,按照上述各个历史评论数据中一个历史评论数据的语言形式关联的分词规则,对上述一个历史评论数据进行分词处理,获得上述一个历史评论数据包含的至少一个词语。

本步骤中,基于历史评论数据的语言形式关联的分词规则,对历史评论数据进行分词处理,可以提升获得的词语的准确度,进而提升后续对词语进行预测的准确度。

作为一种实施例,本领域的技术人员可根据实际的业务需求和语言形式的语言特点,确定各个语言形式关联的分词规则,本申请实施例中将在下文给出几个语言形式关联的分词规则的示例说明。

步骤S6012,基于预设词语掩膜,屏蔽上述至少一个词语中的部分词语。

作为一种实施例,该步骤中可以但不局限于使用预设的词语掩膜Mask,随机遮挡上述少一个词语中的一个或多个词语,对上述词语掩膜Mask的具体形式不做限定,本领域的技术人员可根据实际需求设置。

步骤S6013,确定上述部分词语在上述一个历史评论数据中的上下文信息,并从预配置的候选词库中,选取出与确定的上下文信息之间的匹配度满足匹配度条件的候选词语,上述候选词库基于上述历史评论数据集合确定。

作为一种实施例,在训练语言学习子模型之前,可以但不局限于对历史评论数据集合中的各个历史评论数据进行分词处理,将分词处理获得的各个词语确定为候选词语,将得到的候选词语集合确定为上述候选词库,其中对各个历史评论数据进行分词处理的具体方式可参照步骤S6011,此处不再重复叙述。

作为一种实施例,对上述匹配度满足匹配度条件的情况不做限定,本领域的技术人员可根据实际需求设置,如可以将候选词语与确定的上下文信息之间的匹配度中数值最大的匹配度,确定为满足匹配度条件的匹配度,也可以将候选词语与确定的上下文信息之间的匹配度中,最接近匹配度阈值的匹配度,确定为满足匹配度条件的匹配度。

作为一种实施例,上述步骤S6013中可以但不局限于针对部分词语中各个词语执行如下文本预测操作,分别选取出与部分词语中各个词语匹配的候选词语,确定为部分词语中各自对应的预测词语:针对部分词语中的一个词语,确定上述一个词语的在上述一个历史评论数据中的上下文信息为目标上下文信息,进而确定候选词库中各个候选词语与目标上下文信息的匹配度,选取出匹配度达到匹配度阈值的候选词语,将选取出的候选词语确定为与上述一个词语匹配的预测词语;其中,上述文本预测操作的方法仅为示例性说明,本领域的技术人员可灵活的采取其他方式对词语进行预测。

步骤S6014,将上述部分词语和选取出的候选词语之间的偏差信息,确定为上述一个历史评论数据对应的预测偏差。

作为一种实施例,上述预测偏差可以但不局限于表征上述部分词语和选取出的候选词语之间的偏离程度,该偏离程度可以与部分词语和选取出的候选词语的匹配程度呈负相关;本申请实施例中可以根据实际需求,设置确定上述预测偏差的具体方式,以下给出几种确定预测偏差的示例:

本申请实施例中可以基于部分词语和选取出的候选词语之间的字符串匹配程度或语义匹配程度,确定上述一个历史评论数据对应的预测偏差,如部分词语中包括多个词语时,可以将各个词语和各自对应的预测词语(即针对各个词语选取出的候选词语)的语义匹配程度,确定为各个词语对应的误差信息,进而将上述多个词语中各个词语对应的误差信息的均值,确定为上述一个历史评论数据对应的预测偏差;

本申请实施例中部分词语包括多个词语时,还可以将针对多个词语的预测正确概率,确定为上述一个历史评论数据对应的预测误差,上述预测概率可以但不局限于通过公式1确定:

公式(1)中,K2为上述一个历史评论数据中屏蔽的部分词语的词语总数量,K1为选取出的候选词语为屏蔽的词语的数量,P1为一个历史评论数据对应的预测偏差;如一个历史评论数据中屏蔽的部分词语为词语1、词语2和词语3,针对词语1选取出的候选词语为词语1,针对词语2选取出的候选词语为词语5,针对词语3选取出的候选词语为词语4,则上述K2为3,K1为1,该历史评论数据对应的预测偏差为1/3。

步骤S602,基于各个历史评论数据各自对应的预测偏差,对上述语言学习子模型进行参数调整。

作为一种实施例,可以基于各个历史评论数据各自对应的预测偏差,确定语言学习子模型的模型预测误差,基于模型预测误差对语言学习子模型进行参数调整,如可以但不局限于朝着减小模型预测误差的方向,调整语言学习子模型的模型参数等。

为了提升方案实施的灵活度,本申请实施例中对确定上述模型预测误差的具体方式不做过多限定,本申请实施例中可以根据实际的业务需求灵活设置如可以但不局限于将个历史评论数据各自对应的预测偏差的均值,确定为上述模型预测误差;也可以基于下述公式2的原理,确定语言学习子模型的模型预测误差:

公式(2)中,K4为历史评论数据集合中的历史评论数据的总数量,K3为文本预测正确的历史评论数据的数量,P2为上述模型预测误差;其中,文本预测正确的历史评论数据可以是预测偏差大于预测偏差阈值的历史评论数据,文本预测正确的历史评论数据也可以是选取出的候选词语是屏蔽的部分词语本身的历史评论数据。

作为一种实施例,为便于进一步理解本申请实施例的方案,以下给出几种语言形式关联的分词规则的示例:

本申请实施例中涉及的语言形式关联的分词规则,可以但不局限于是将历史评论数据中,组合成在语言形式关联的参考分词集合中的参考词语的连续字符划分在一起;其中上述参考词语可以但不局限于是上述语言形式中,组合使用的频率高于第一频率阈值的至少一个字符组成的第一字符组,其中上述第一字符组中的至少一个字符之间的排列位置可以有先后顺序,上述组合使用的频率可以基于语言形式中各个字符的历史使用情况的统计确定等;此处以汉语作为上述一个历史评论数据的语言形式为例进行说明,一个汉字可以为一个字符,假设上述第一频率阈值为0.65,字符“长”和字符“江”组合成“长江”使用的频率为0.68,字符“陈”和字符“列”组合成“列陈”使用的频率为0.25,字符“黄”和字符“河”组合成“黄河”使用的频率为0.75,字符“黄”和字符“河”组合成“黄河”组合成“河黄”使用的频率为0.20,则可以分别将“长江”、“黄河”作为汉语关联的参考分词集合中的参考词语,而不将“列陈”和“河黄”作为参考词语,进而如果目标评论数据中包含字符“长”,且在“长”之后的连续位置处是字符“江”,则可以将将目标评论数据中的“长”和“江”划分为一个词语。

本申请实施例中涉及的语言形式关联的分词规则,还可以是将目标评论数据中在上述一个历史评论数据的语言形式中组合使用频率大于第二频率阈值的连续字符,划分为一个词语;其中将上述连续字符记为第二字符组,以下以汉语作为上述一个历史评论数据的语言形式为例进行说明,对确定上述组合使用频率以及划分得到的第二字符组进行示例性说明;若一个第二字符组中包括位置连续的字符B1和字符B2,则可以将汉语中字符B1之后出现字符B2的概率,确定为该第二字符组的组合使用频率,如汉语中字符“长”之后出现“江”的概率为0.8,确定为“长江”的组合使用频率为0.8;若一个第二字符组中包括位置连续的字符B3、B4和B5,则可以基于汉语中字符B3之后出现字符B4的第一概率,以及汉语中字符B4之后出现字符B5的第二概率,确定该第二字符组的组合使用频率,如可以直接将第一概率和第二概率的乘积,确定为该第二字符组的组合使用频率,此处给出一个具体示例,若目标评论数据中存在位置连续的“黄”、“浦”和“江”,则且汉语中字符“黄”之后出现“浦”的概率为0.9,“浦”后出现“江”的概率为0.7,“黄浦江”连续出现的组合使用频率为“0.9×0.8=0.72”,若第二频率阈值为0.6,则可以将目标标评论数据中连续出现的“黄”、“浦”和“江”划分为一个词语“黄浦江”;当第二字符组合中的字符的数量超过3个,则可以基于上述方法,确定各个第二字符组合的组合频率,此处不再过多叙述;

应当说明的是,上述语言形式关联的分词规则只是示例性介绍,本领域的技术人员可根据实际的业务需求和语言形式的语言特点,确定各个语言形式关联的分词规则,针对不同语言形式而言,上述涉及的字符可以根据实际情况设置,如语言形式为汉语时,一个汉字可以是一个字符,语言形式为英文时,一个英文单词可以为一个字符。

本申请实施例的以下内容,对上述评论数据分类模型的训练过程做进一步说明。

作为一种实施例,本申请实施例中在对评论数据分类模型进行训练的过程中,可以对历史评论数据标注数据类型后作为训练样本,基于多个训练样本构成的训练样本集对评论数据分类模型进行训练,在训练过程中,可以将针对各历史评论数据标注的数据类型作为标注数据类型,通过已训练的语言学习子模型提取各历史评论数据的历史文本特征,并通过预测子模型根据上述历史文本特征,估计各历史评论数据的数据类型,进而将估计的数据类型作为预测数据类型,基于各个历史评论数据各自对应的标注数据类型和预测数据类型的偏差信息,确定评论数据分类模型的预测误差,进而朝着使评论数据分类模型的预测误差降低的方向,对上述预测子模型进行参数调整,至满足第二训练结束条件时,将上述已训练的语言学习子模型和当前的预测子模型,输出为训练后的评论数据分类模型;

其中,上述标注数据类型可以是上述错别字评论数据或非错别字评论数据,若一个历史评论数据中包含有针对错别字的目标评论内容,则可以将该历史评论数据标注为错别字评论数据;若一个历史评论数据中未包含有针对错别字的目标评论内容,则可以将该历史评论数据标注为非错别字评论数据。

作为一种实施例,本申请实施例中对上述第二训练结束条件不做过多限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将第二训练结束条件设置为如下的训练结束条件C1至C3中的一种或任意组合:训练结束条件C1)针对上述评论数据分类模型的训练操作的次数达到第二次数阈值;训练结束条件C2)对上述评论数据分类模型进行训练操作的时长达到第二时长阈值;训练结束条件C3)当前正在训练的评论数据分类模型的预测误差小于第二预测误差阈值等。

作为一种实施例,为了提升基于针对媒体内容的目标评论数据,识别出媒体内容中的错别字信息的效率和灵活度,本申请实施例中可以将针对媒体内容的目标评论数据集中的目标评论数据,分批次输入上述评论数据分类模型,也可以将目标评论数据中的目标评论数据逐个输入评论数据分类模型进行识别。

作为一种实施例,为进一步提升对不同语言形式的媒体内容中的错别字进行识别的准确度,可以分别利用不同语言形式的历史评论数据集合,训练对应的语言学习子模型和评论数据分类模型,获得不同语言形式关联的语言学习子模型和评论数据分类子模型;在对媒体内容进行错别字识别时,可以将上述媒体内容的语言形式确定为目标语言形式,从针对媒体内容的评论数据集合中,选取目标语言形式的评论数据,作为目标评论数据进行处理,进而利用与上述目标语言形式关联的评论数据分类模型对目标评论数据进行处理,确定目标评论数据是否是错别字评论数据,具体处理方式可参见上述内容,此处不再重复叙述;其中,与上述目标语言形式关联的评论数据分类模型中的语言学习子模型,是与上述目标语言形式关联的已训练的语言学习子模型。

本申请实施例的以下内容,对上述步骤S204中基于正则表达式,对目标评论内容进行解析,确定出媒体内容中的错别字信息的过程做进一步说明:

首先,对本申请实施例中涉及的正则表达式做进一步说明;上述正则表达式中可以但不局限于包括用于指示错别字的至少一个参考文本,以及指示错别字的错别字占位符和语言符号等信息中的至少一个,其中,上述错别字占位符可以在其中一个参考文本中,也可以在两个参考文本之间,本领域的技术人员可根据实际需求设置上述正则表达式中的参考文本和错别字占位符,如正则表达式可以但不局限于为以下正则表达式1至正则表达式5的形式:

正则表达式1:“S1”;

正则表达式2:“S1-P1,S2”;

正则表达式3:“P1-S1”;

正则表达式4:“D1-P1-D2”;

正则表达式5:“D1-P1,E1”;

其中,上述正则表达式1至5中,S1和S2为不同的参考文本,P1为错别字占位符,D1和D2为同一参考文本中的不同字符段,E1为目标词语占位符,该目标词语占位符可以但不局限于是错别字对应的正确字的占位符。

作为一种实施例,为了提升对目标评论内容进行解析的准确度,本申请实施例中可以针对不同语言形式的评论数据,预配置不同的正则表达式集合,进而基于目标评论数据的语言形式关联的正则表达式集合中的各个正则表达式,对目标评论内容进行解析;为便于理解,以下以汉语为例,给出汉语关联的正则表达式集合,该正则表达式集合中可以但不局限于包括以下示例1至示例5:

示例1:“有个字写错了”;

示例2:“文中的“哪”,好像写错了”;

示例3:““雯”字写错了”;

示例4:““李文”中的“文”写错了”;

示例5:“不是“李文”,而应该是“李雯””;

其中,上述示例1为正则表达式1的一个例子,其中的“有个字写错了”为正则表达式1中的S1;上述示例2为正则表达式2的一个例子,其中的“文中的”和“好像写错了”分别为正则表达式2中的S1和S2,“哪”为正则表达式2中的P1;上述示例3为正则表达式3的一个例子,其中的““雯”为正则表达式2中的P1,“字写错了”为正则表达式3中的S1;上述示例4为正则表达式4的一个例子,其中的““李文”中的”和“写错了”分别为正则表达式4中的D1和D2,“文”为正则表达式4中的P1;上述示例5为正则表达式5的一个例子,其中的“不是”和“而应该是”分别为正则表达式5中的D1和D2,“李文”为正则表达式5中的P1,“李雯”为正则表达式5中的E1。

作为一种实施例,对不同语言形式各自关联的正则表达式集合中的正则表达式的数量不做过多限定,本领域的技术人员可根据实际需求设置,在上述步骤S204中,可以从目标评论数据的语言形式关联的正则表达式集合中,依次选取出正则表达式,对目标评论数据中的目标评论内容进行解析。

具体地,步骤S204中,可以基于选取出的正则表达式,对目标评论数据中包含的目标评论内容进行解析,获得相应的解析结果;基于上述解析结果,确定上述目标评论内容关联的至少一个错别字,和上述至少一个错别字在上述媒体内容中的文本位置信息;将上述至少一个错误字和上述文本位置信息,确定为上述媒体内容中的错别字信息。

作为一种实施例,为了提升获取的解析结果的准确度,本申请实施例中可以但不局限于将目标评论数据和正则表达式中的参考文本的字符匹配度,确定为上述解析结果;具体地,步骤S204中可以针对选取出的各个正则表达式,可以执行如下操作,确定出上述媒体内容中的错别字信息:

确定目标评论数据和一个正则表达式的字符匹配度;若上述字符匹配度大于匹配度阈值,则基于上述一个正则表达式中的错别字占位符的文本位置信息,将上述目标评论数据中在上述错别字占位符的文本位置处的字符,确定为上述错别字,并将上述错别字占位符的文本位置确定为错别字的文本位置信息等。

作为一种实施例,为了提升错别字检测的准确度,本申请实施例中,若步骤S204中基于上述解析结果未获得上述错别字信息,则可以但不局限于基于预配置的错别字检测规则,对上述媒体内容进行错别字检测,获得检测结果,根据上述检测结果,确定上述媒体内容中是否包含对应的错别字信息。

作为一种实施例,基于上述解析结果未获得上述错别字信息可以但不局限于包括如下情况1)和情况2):情况1)目标评论数据的语言形式关联的正则表达式集合中,不存在和目标评论数据的字符匹配度大于匹配度阈值的正则表达式;情况2)目标评论数据的语言形式关联的正则表达式集合中,与目标评论数据的字符匹配度大于匹配度阈值的正则表达式中,未指示具体的错别字信息,如可以但不局限于包括字符匹配度大于匹配度阈值的正则表达式为上述正则表达式1的情况。

作为一种实施例,上述预配置的错别字检测规则,可以但不局限于是基于已训练的错别字检测模型,直接在上述媒体内容中检测错别字,也可以是由审核人员对上述媒体内容进行错别字的检测。

作为一种实施例,目标评论数据中指示的错别字信息并不一定是可靠的,因此为了提升对错别字进行识别的准确度,本申请实施例中可以在基于上述目标文本特征,确定上述目标评论数据中包含有针对错别字的目标评论内容之后,在基于上述目标评论内容,确定上述媒体内容中的错别字信息之前,基于获取发布上述目标评论数据的目标账户的账户信息,确定目标评论数据的置信度,若确定目标评论数据的置信度达到置信度阈值后,则可以再于上述目标评论内容,确定上述媒体内容中的错别字信息;如此可以过滤掉信息不可靠的目标评论数据,进而能提升对错别字进行识别的准确度;其中上述账户信息可以但不局限于是目标账户的账户画像数据,该账户画像数据又称为账户画像或用户画像(UserProfile),其指将账户关联的用户的信息进行标签化;账户画像数据中可以但不局限于包括如下至少一种信息:用户的性别、年龄、常住地、籍贯、身高、学历、婚恋状态、受教育程度、资产情况、收入情况、职业等人口属性信息和社会属性,账户的账户等级、账户资产、账户信誉等账户信息以及从账户的历史行为数据中挖掘出的信息。

作为一种实施例,由于目标评论数据不一定是准确的,因此在上述步骤S204中获得错别字信息可能是错误的,故而本申请实施例中在步骤S204中,获取错别字信息之后,还可以将错别字信息反馈给内容审核人员,由内容审核人员判断上述错别字信息是否正确,在确定错别字信息正确的情况下,可以由内容审核人员对媒体内容中上述错别字信息指示的错别字进行修正。

作为一种实施例,以下内容中提供一种错别字识别方法的完整的流程的示例,请参见图7,具体包括如下步骤:

步骤S701,从针对已发布的媒体内容管理的评论数据集合中,选取当前未处理的目标评论数据。

步骤S702,将选取的目标评论数据输入已训练的评论数据分类模型,通过评论数据分类模型中的语言学习子模型,提取出上述目标评论数据对应的目标文本特征。

步骤S703,通过评论数据分类模型中的预测子模型,对选取的目标评论数据进行识别。

步骤S704,确定上述目标评论数据是否是错别字评论数据,若是,则进入步骤S705,否则进入步骤S709。

步骤S705,基于与上述媒体内容的语言形式关联的正则表达式,对上述目标评论数据进行解析,获得解析结果。

步骤S706,确定解析结果中是否包含错别字指示信息,若包含,则进入步骤S707,否则进入步骤S708;

其中,上述错别字指示信息可以但不局限于是目标评论数据中的目标评论内容关联的至少一个错别字,以及上述至少一个错别字在上述媒体内容中的文本位置信息。

步骤S707,基于解析结果,确定上述媒体内容中的错别字信息,并进入步骤S709。

步骤S708,基于预配置的错别字检测规则,对上述媒体内容进行错别字检测,获得检测结果,并根据检测结果,确定上述媒体内容中是否包含对应的错别字信息,并进入步骤S709。

步骤S709,确定上述媒体内容关联的评论数据集合中,是否存在未处理的目标评论数据,若存在,则进入步骤S701,否则,则结束处理。

其中,上述步骤S701至步骤S709的具体内容可参见上述描述,此处不再重复叙述。

请参见图8,提供一种错别字识别方法的具体示例,该示例中以文章为媒体内容为例进行说明,内容平台的用户创作文章后,可以通过内容生产端将文章发表到内容平台;进而内容平台在文章通过内容生产端发表后,可以通过内容分发出口将文章分发到内容消费端;随着文章在信息流上的不断曝光和推荐,内容平台中的用户可以对文章进行点击和阅读,并可以对文章触发评论操作,进而上述错别字识别服务器130可以将基于上述评论操作获得的评论数据,作为目标评论数据,基于评论数据分类模型对目标评论数据进行识别,确定上述目标评论数据中是否包含针对错别字的目标评论内容,在确定目标评论数据中包含目标评论内容时,基于该目标评论内容,确定上述文章中的错别字信息;进一步,还可以将上述目标评论数据和上述错别字信息反馈给人工审核系统的内容审核人员,由内容审核人员判断上述错别字信息是否正确,在确定错别字信息正确的情况下,可以由内容审核人员对上述错别字信息指示的错别字进行修改等。

本申请实施例中一方面,可以基于针对媒体内容的目标评论数据,识别出媒体内容中的错别字信息,可以提升识别媒体内容中的错别字的准确度;其经实验证明,利用本申请实施例提供的错别字识别方法,可以识别出错别字评论数据中的90%以上的错别字信息,评论数据分类模型对错误字评论数据的识别准确度可以达到95%以上;另一方面,若内容审核人员基于识别出的错别字信息对媒体内容中的错别字进。

请参照图9,基于同一发明构思,本申请实施例提供一种错别字识别装置900,包括:

数据获取单元901,用于获取针对已发布的媒体内容的目标评论数据;

特征提取单元902,用于根据上述目标评论数据包含的各个词语的上下文信息,提取上述目标评论数据对应的目标文本特征;

第一识别单元903,用于基于上述目标文本特征,确定上述目标评论数据中包含有针对错别字的目标评论内容;

第二识别单元904,基于上述目标评论内容,确定上述媒体内容中的错别字信息。

作为一种实施例,特征提取单元902具体用于:

将上述目标评论数据输入已训练的评论数据分类模型;

基于上述评论数据分类模型中的语言学习子模型,对上述目标评论数据包含的各个词语的上下文信息进行特征提取,获得上述目标评论数据对应的目标文本特征;

其中,上述语言学习子模型是将历史评论数据作为训练样本,基于上述训练样本包含的各个词语的上下文信息,对上述语言学习子模型进行特征学习的训练得到的。

作为一种实施例,上述评论数据分类模型还包括预测子模型,则上述第一识别单元903具体用于:

将上述目标文本特征输入上述预测子模型;

基于上述预测子模型已学习的第一关联度,预测上述目标文本特征与目标数据识别结果之间的第二关联度,上述第一关联度是基于历史评论数据对应的历史文本特征和上述目标数据识别结果之间的关联程度确定的,上述目标数据识别结果用于表征文本数据中包含有针对错别字的评论内容;

若上述第二关联度大于关联度阈值,则确定上述目标评论数据中包含上述目标评论内容。

作为一种实施例,特征提取单元902还用于通过如下方式,对上述语言学习模型进行训练:

基于历史评论数据集合,对上述语言学习子模型进行训练操作,一次训练操作包括:针对从上述历史评论数据集合获得的各个历史评论数据,分别执行文本预测操作,确定上述各个历史评论数据各自对应的预测偏差;并基于各个历史评论数据各自对应的预测偏差,对上述语言学习子模型进行参数调整;

其中,上述文本预测操作包括:

按照上述各个历史评论数据中一个历史评论数据的语言形式关联的分词规则,对上述一个历史评论数据进行分词处理,获得上述一个历史评论数据包含的至少一个词语;

基于预设词语掩膜,屏蔽上述至少一个词语中的部分词语;以及

确定上述部分词语在上述一个历史评论数据中的上下文信息,并从预配置的候选词库中,选取出与确定的上下文信息之间的匹配度满足匹配度条件的候选词语,上述候选词库基于上述历史评论数据集合确定;

将上述部分词语和选取出的候选词语之间的偏差信息,确定为上述一个历史评论数据对应的预测偏差。

作为一种实施例,第二识别单元904具体用于:

基于用于识别上述错别字信息的预配置的正则表达式,对上述目标评论内容进行解析,获得相应的解析结果;

基于上述解析结果,确定上述目标评论内容关联的至少一个错别字,和上述至少一个错别字在上述媒体内容中的文本位置信息;

将上述至少一个错误字和上述文本位置信息,确定为上述媒体内容中的错别字信息。

作为一种实施例,第二识别单元904进一步用于:

若基于上述解析结果未获得上述错别字信息,则基于预配置的错别字检测规则,对上述媒体内容进行错别字检测,获得检测结果;

根据上述检测结果,确定上述媒体内容中是否包含对应的错别字信息。

作为一种实施例,第二识别单元904用于:

获取发布上述目标评论数据的目标账户的账户信息;

基于上述账户信息,确定上述目标评论数据的置信度;

确定上述置信度达到置信度阈值时,基于上述目标评论内容,确定上述媒体内容中的错别字信息。

作为一种实施例,图9中的装置可以用于实现前文论述的任意一种错别字识别方法。

与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备。该计算机设备可以用于基于推送内容的数据处理。在一种实施例中,该计算机设备可以是服务器,如图1所示的错别字识别服务器130。在该实施例中,计算机设备的结构可以如图10所示,包括存储器1001,通讯模块1003以及一个或多个处理器1002。

存储器1001,用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1001可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1001也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1001可以是上述存储器的组合。

处理器1002,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等。处理器1002,用于调用存储器1001中存储的计算机程序时实现上述基于内容推送的数据处理方法。

通讯模块1003用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1001、通讯模块1003和处理器1002之间的具体连接介质。本公开实施例在图10中以存储器1001和处理器1002之间通过总线1004连接,总线1004在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1004可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器1001中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的内容推荐方法。处理器1002用于执行上述错别字识别方法。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例上述错别字识别方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

基于同一技术构思,本申请实施例还一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当上述计算机指令在计算机上运行时,使得计算机执行如前文论述的错别字识别方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

30页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种核心词确定方法和相关装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!