一种区分文本信息的方法

文档序号:1628463 发布日期:2020-01-14 浏览:39次 >En<

阅读说明:本技术 一种区分文本信息的方法 (Method for distinguishing text information ) 是由 周继敏 于 2019-10-14 设计创作,主要内容包括:本发明公开了一种区分文本信息的方法,所述方法包括:S1:接收所述文本信息。S2:识别所述文本信息为所述书面文本相关信息或所述口语文本相关信息,并将所述书面文本相关信息发送到与其对应的文本模型或者将所述口语文本相关信息发送到与其对应的语言模型。S3:判断所述S2中的所述文本模型、所述语言模型的识别结果,根据所述识别结果判断是否进行再次识别。达到了识别口头(言语)和书面(文字)的细微差别,正确且完整识别口头(言语)和书面(文字),使企业能够更准确地理解和回复这两种通信形式,真实还原面对面的有效沟通的技术效果。(The invention discloses a method for distinguishing text information, which comprises the following steps: s1: and receiving the text information. S2: and identifying the text information as the relevant written text information or the relevant spoken text information, and sending the relevant written text information to a text model corresponding to the relevant written text information or sending the relevant spoken text information to a language model corresponding to the relevant spoken text information. S3: and judging the recognition results of the text model and the language model in the step S2, and judging whether to perform re-recognition according to the recognition results. The method achieves the effects of identifying the nuance of the oral (speech) and written (characters), correctly and completely identifying the oral (speech) and written (characters), so that enterprises can more accurately understand and reply the two communication forms, and the technical effect of effective communication in face-to-face is really restored.)

一种区分文本信息的方法

技术领域

本发明属于人工智能自然语言处理技术领域,具体涉及一种区分文本信息的方法。

背景技术

口头(言语)和书面(文字)是两种最重要的沟通方式,尤其是在商业环境中。传统的自然语言处理方法是对给定的文本进行简单的提取和分析,而不管文本的来源是什么。然而,在决定每一种交流形式的意义时,两者有许多细微的差别。例如,人们经常在口头交流中使用填充词或发出一些永远不会被写出来的声音(“e”、“hmm”、“en”、清喉声等等)。也有一些与声音相关的不同的意思是永远不会被写下来的(“嗯”表示同意,“啧”表示不太同意)。同样,有许多符号(标点符号、符号符号、表情符号等)经常出现在书面文本中,这些符号永远不会被说出来,但可能对理解意思很重要。人们倾向于用更完整的句子书面回答,而用更短的短语口头回答,如何识别口头(言语)和书面(文字)的细微差别,正确且完整识别口头(言语)和书面(文字),真实还原面对面的有效沟通。

发明内容

针对现有技术中的缺陷,本发明实施例提供一种区分书面文本和口语文本的方法,达到了识别口头(言语)和书面(文字)的细微差别,正确且完整识别口头(言语)和书面(文字),使企业能够更准确地理解和回复这两种通信形式,真实还原面对面的有效沟通的技术效果。

针对以上技术问题,本发明实施例提供了一种区分文本信息方法,所述方法包括:

S1:接收所述文本信息。

S2:识别所述文本信息为所述书面文本相关信息或所述口语文本相关信息,并将所述书面文本相关信息发送到与其对应的文本模型或者将所述口语文本相关信息发送到与其对应的语言模型。

S3:判断所述S2中的所述文本模型、所述语言模型的识别结果,根据所述识别结果判断是否进行再次识别。

根据本发明的一个实施例,所述S2中所述识别所述文本信息为所述书面文本相关信息或所述口语文本相关信息,包括:采用外部引擎识别所述文本信息,确定所述S1中接收到的文本信息是否为所述书面文本信息或者所述口语文本信息。

根据本发明的一个实施例,所述S3中所述判断所述S2中的所述文本模型、所述语言模型的识别结果,包括:判断所述文本模型识别的所述文本信息结果是否正确以及判断所述语言模型的识别的文本信息结果是否正确。

根据本发明的一个实施例,所述S3中所述根据所述识别结果判断是否进行再次识别,包括:如果所述文本模型识别的所述文本信息结果不正确,使用语言模型对所述文本信息识别;如果语言模型识别的所述文本信息结果不正确,使用文本模型对所述文本信息识别。

根据本发明的一个实施例,S4:根据所述文本模型、所述语言模型的识别结果更新与所述文本模型和所述语言模型相关的参数。

本发明达到的技术效果为:本发明是一种将文本分类为源自语音或文字的方法,并使用单独的模型对其进行分析。使用大量的书面文本和语音样本,我们使用机器学习和Python文本分类来训练两个独立的模型。为了实现这一目标,语音转换为文本使用语音到文本技术。在应用中,输入的短语由位于训练模型之外的外部引擎接收,该引擎可以识别输入源并将其分配给适当的模型进行NLP分析。然而,这项任务并不是一成不变的,它只是一个优先事项;从所分配的模型中进行的分析被证明是不准确的,输入将自动转移到另一个模型中进行分析。与机器学习系统一样,每个输入都进一步提高了模型的准确性。该机器可以确定输入短语的含义,并将其用于人工智能应用。针对这些细微差别进行训练,使企业能够更准确地理解和回复这两种通信形式,避免了机器翻译不准确带来的沟通无效,同时也能大大提高工做中的协同有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的方法流程图;

图2是本发明实施例的又一方法流程图;

图3是本发明实施例的又一方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。

本发明实施例提供一种区分书面文本和口语文本的方法,达到了识别口头(言语)和书面(文字)的细微差别,正确且完整识别口头(言语)和书面(文字),使企业能够更准确地理解和回复这两种通信形式,真实还原面对面的有效沟通的技术效果。

本发明实施例提供了一种区分文本信息的方法,如图1所示,所述方法包括:

S1:接收所述文本信息。

S2:识别所述文本信息为所述书面文本相关信息或所述口语文本相关信息,并将所述书面文本相关信息发送到与其对应的文本模型或者将所述口语文本相关信息发送到与其对应的语言模型。

S3:判断所述S2中的所述文本模型、所述语言模型的识别结果,根据所述识别结果判断是否进行再次识别。

根据本发明的一个实施例,所述S2中所述识别所述文本信息为所述书面文本相关信息或所述口语文本相关信息,包括:采用外部引擎识别所述文本信息,确定所述S1中接收到的文本信息是否为所述书面文本信息或者所述口语文本信息。

根据本发明的一个实施例,所述S3中所述判断所述S2中的所述文本模型、所述语言模型的识别结果,包括:判断所述文本模型识别的所述文本信息结果是否正确以及判断所述语言模型的识别的文本信息结果是否正确。

根据本发明的一个实施例,所述S3中所述根据所述识别结果判断是否进行再次识别,包括:如果所述文本模型识别的所述文本信息结果不正确,使用语言模型对所述文本信息识别;如果语言模型识别的所述文本信息结果不正确,使用文本模型对所述文本信息识别。

根据本发明的一个实施例,如图2所示,所述方法还包括:S4:根据所述文本模型、所述语言模型的识别结果更新与所述文本模型和所述语言模型相关的参数。

如图3所示,本发明实施例公开的又一方法流程图,包括:

1.0:输入给定的短语(语音或书面文本)。

2.0:引擎确定输入短语(语音或书面文本)的来源,并分配给适当的模型。

3.0:模型根据机器学习训练对文本进行分析,确定文本的意义。

4.0:如果分析不准确,将使用另一个模型分析输入。

5.0:每个新样品都用于改进模型。

本发明达到的技术效果为:本发明是一种将文本分类为源自语音或文字的方法,并使用单独的模型对其进行分析。使用大量的书面文本和语音样本,我们使用机器学习和Python文本分类来训练两个独立的模型。为了实现这一目标,语音转换为文本使用语音到文本技术。在应用中,输入的短语由位于训练模型之外的外部引擎接收,该引擎可以识别输入源并将其分配给适当的模型进行NLP分析。然而,这项任务并不是一成不变的,它只是一个优先事项;从所分配的模型中进行的分析被证明是不准确的,输入将自动转移到另一个模型中进行分析。与机器学习系统一样,每个输入都进一步提高了模型的准确性。该机器可以确定输入短语的含义,并将其用于人工智能应用。针对这些细微差别进行训练,使企业能够更准确地理解和回复这两种通信形式,避免了机器翻译不准确带来的沟通无效,同时也能大大提高工做中的协同有效性。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各技术方案的范围。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种文本标注方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!