一种语音识别方法、装置、电子设备和存储介质

文档序号：1965031 发布日期：2021-12-14 浏览：18次 >En<

阅读说明：本技术 一种语音识别方法、装置、电子设备和存储介质 (Voice recognition method and device, electronic equipment and storage medium ) 是由赵东阳李霄寒于 2021-09-15 设计创作，主要内容包括：本发明涉及语音识别方法、装置、设备和介质,该方法包括：获取待识别语音,将待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度；将待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度；将词条序列中每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音,并输出有效的语音或所述噪音。本申请通过在离线模型增加快速连续口述词条,扩大了语音识别的范围,解决了现存技术在遇到超范围语音时无法识别的问题；通过原语法文件训练的分词模型,将多个词条分离出来并输出；结合离线模型和分词模型、逻辑判断模块判断每个词条是有效的语音或噪音,不仅速度快,而且准确率高。(The invention relates to a voice recognition method, a device, equipment and a medium, wherein the method comprises the following steps: acquiring a voice to be recognized, and inputting the voice to be recognized into an offline model to obtain a text corresponding to the voice to be recognized and a confidence coefficient corresponding to the voice to be recognized; inputting a speech text to be recognized into a word segmentation model to obtain a word sequence and a confidence coefficient corresponding to each word in the word sequence; and inputting the confidence corresponding to each entry in the entry sequence into a logic judgment module to judge whether each entry is effective voice or noise, and outputting the effective voice or the noise. The method and the device have the advantages that the rapid continuous dictation entries are added in the offline model, so that the range of voice recognition is expanded, and the problem that the existing technology cannot recognize when over-range voice occurs is solved; separating and outputting a plurality of entries through a word segmentation model trained by a primitive language file; the offline model, the word segmentation model and the logic judgment module are combined to judge whether each entry is effective voice or noise, so that the speed is high, and the accuracy is high.)

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

目前，离线语音识别本质上是对有限个词条的识别，超出词条范围，会被识别为噪声。例如在一个医疗CT检查场景下，指定词条范围为“慢点吸气”、“慢点呼气”、“憋气”、“保持住”，一共4个。医生分别口述“慢点吸气”、“慢点呼气”、“憋气”、“保持住”的时候，离线识别系统能够准确的识别出这4个词条。当医生快速连续口述多个词条，如“慢点吸气憋气保持住”，医生的期望是能够识别出“慢点吸气”、“憋气”、“保持住”3个词条，进一步进行后续的操作。但是因为“慢点吸气憋气保持住”不在离线模型的识别范围内，这句话本身就不会被识别出来，进一步也不会识别出3个词条。

发明内容

本发明提供一种语音识别方法、装置、电子设备和存储介质，能够解决上述超范围语音识别不出的的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供一种语音识别方法，包括：

获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度；

将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度；

将词条序列中每个词条以及每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。

在一些实施例中，上述语音识别方法中，离线模型的训练步骤如下：

获取临时语法文件；

使用所述临时语法文件训练模型得到所述离线模型；

其中，所述临时语法文件包括：原有的多个词条和所述原有的多个词条组成的一个连续词条。

在一些实施例中，上述语音识别方法中，分词模型模型的训练步骤如下：

获取原有语法文件；

使用所述原有语法文件训练模型得到所述分词模型；

其中，所述原有语法文件包括：原有的多个词条。

在一些实施例中，上述语音识别方法中，所述逻辑判断模块中预设置信度阈值。

在一些实施例中，上述语音识别方法中，所述将词条序列中每个词条以及每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，包括：

依次比较每个词条对应的置信度与预设置信度阈值；

确定每个词条是有效的语音或噪音。

在一些实施例中，上述语音识别方法中，所述待识别语音对应的置信度和所述词条序列中每个词条对应的置信度的值相等。

在一些实施例中，上述语音识别方法中，所述使用所述原有语法文件训练模型得到所述分词模型，采用机器学习训练模型得到所述分词模型。

第二方面，本发明实施例还提供一种语音识别装置，包括：

获取模块和第一得到模块：用于获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度；

第二得到模块：用于将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度；

判断模块和输出模块：用于将词条序列中每个词条以及每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种语音识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种语音识别方法。

本发明的有益效果是：本发明涉及语音识别方法、装置、电子设备和存储介质，该方法包括：获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度；将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条以及每个词条对应的置信度；将词条序列中每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。本申请通过在离线模型增加快速连续口述词条，扩大了语音识别的范围，解决了现存技术在遇到超范围语音时无法识别的问题；通过原语法文件训练的分词模型，将多个词条分离出来并输出；将离线模型和分词模型结合得到连续口述词条中夫人每个词条以及每个词条的置信度，通过逻辑判断模块判断每个词条是有效的语音或噪音，不仅速度快，而且准确率高。

附图说明

图1为本发明实施例提供的一种语音识别方法图一；

图2为本发明实施例提供的一种语音识别方法图二；

图3为本发明实施例提供的一种语音识别方法图三；

图4为本发明实施例提供的一种语音识别装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种语音识别方法图一。

第一方面，结合图1，本发明实施例提供了一种语音识别方法，包括S101至S103三个步骤：

S101：获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度。

具体的，本申请实施例中，待识别语音可以是讲话人连续口述多个词条如“慢点吸气憋气保持住”，在原离线模型下无法识别，通过本申请的离线模型可以得到连续口述多个词条“慢点吸气憋气保持住”对应的文本和“慢点吸气憋气保持住”的置信度。

应理解，本申请实施例中的连续口述多个词条“慢点吸气憋气保持住”只是举例说明，具体应用中也可以是别的词条，并不以此限定本申请的保护范围。

S102：将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度。

具体的，本申请实施例中，将连续口述多个词条“慢点吸气憋气保持住”对应的文本输入到分词模型中得到“慢点吸气”、“憋气”、“保持住”三个词条以及三个词条对应的置信度，这里的三个词条对应的置信度和“慢点吸气憋气保持住”的置信度是同一个值，如置信度是0.9、0.8、0.75等值。

S103：将词条序列中每个词条以及每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。

具体的，本申请实施例中，将词条序列以及词条序列中每个词条对应的置信度输入到逻辑判断模块中确定每个词条是有效的语音或噪音，并依次输出，如输出“慢点吸气”是有效语音、“憋气”是有效语音、“保持住”是噪音。应理解，本申请实施例中的“慢点吸气”、“憋气”、“保持住”三个词条是举例说明，也可以是别的词条，这里不一一举例说明，并不以此限定本申请的保护范围。

图2为本发明实施例提供的一种语音识别方法图二。

在一些实施例中，结合图2，上述语音识别方法中，离线模型的训练步骤包括S201和S202两个步骤：

S201：获取临时语法文件。

S202：使用所述临时语法文件训练模型得到所述离线模型。

其中，所述临时语法文件包括：原有的多个词条和所述原有的多个词条组成的一个连续词条。

具体的，本申请实施例中如原有的多个词条为“慢点吸气”、“慢点呼气”、“憋气”、“保持住”以及原有的多个词条组成的一个连续词条“慢点吸气憋气保持住”组成了临时原有语法文件，该临时语法文件中包含5个词条，4个原有词条和1个连续词条，使用临时语法文件训练模型得到离线模型，本申请实施例中的离线模型支持原有词条和连续词条的识别，如上述例子中能够识别上述5个词条即4个原有词条和1个连续词条。

在一些实施例中，上述语音识别方法中，分词模型模型的训练步骤如下：

获取原有语法文件。

使用所述原有语法文件训练模型得到所述分词模型。

其中，所述原有语法文件包括：原有的多个词条。

具体的，本申请实施例中原有语法文件中可以是包含了正常口述的多个词条的文件如：“慢点吸气”、“慢点呼气”、“憋气”、“保持住”4个词条，使用正常口述的“慢点吸气”、“慢点呼气”、“憋气”、“保持住”4个词条训练模型得到分词模型，本申请实施例中的分词模型支持原有词条的识别，如上述例子中分词模型能够识别上述4个词条。

在一些实施例中，上述语音识别方法中，所述逻辑判断模块中预设置信度阈值。

具体的，本申请实施例中，通过在逻辑判断模块中预设置信度阈值，确定每个词条是有效的语音或噪音，如“慢点吸气”、“憋气”、“保持住”三个词条以及三个词条对应的置信度均为0.85，置信度阈值为0.8，则逻辑判断模块确定“慢点吸气”、“憋气”、“保持住”三个词条为有效的语音，并依次输出“慢点吸气”为有效的语音、“憋气”为有效的语音、“保持住”为有效的语音。

图3为本发明实施例提供的一种语音识别方法图三。

在一些实施例中，结合图3上述语音识别方法中，所述将词条序列中每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，包括S301和S302两个步骤：

S301：依次比较每个词条对应的置信度与预设置信度阈值。

S302：确定每个词条是有效的语音或噪音。

具体的，本申请实施例中，如将“慢点吸气”、“憋气”、“保持住”三个词条以及三个词条对应的置信度均为0.85输入到逻辑判断模块判断“慢点吸气”、“憋气”、“保持住”三个词条是有效的语音或噪音，依次比较0.85与置信度阈值如0.8，三个词条的置信度0.85大于置信度阈值0.8，确定“慢点吸气”、“憋气”、“保持住”三个词条均是有效的语音。

在一些实施例中，上述语音识别方法中，所述待识别语音对应的置信度和所述词条序列中每个词条对应的置信度的值相等。

具体的，本申请实施例中，待识别语音可以是讲话人连续口述多个词条如“慢点吸气憋气保持住”，通过本申请的离线模型可以得到连续口述多个词条“慢点吸气憋气保持住”对应的文本和“慢点吸气憋气保持住”的置信度。将连续口述多个词条“慢点吸气憋气保持住”对应的文本输入到分词模型中得到“慢点吸气”、“憋气”、“保持住”三个词条以及三个词条对应的置信度，这里的三个词条对应的置信度和“慢点吸气憋气保持住”的置信度是同一个值，如置信度是0.9、0.8、0.75和0.6等值。

在一些实施例中，上述语音识别方法中，所述使用所述原有语法文件训练模型得到所述分词模型，采用机器学习训练模型得到所述分词模型。

具体的，本申请实施例中，使用基于机器学习的分词模型，而不是基于规则做一个分词用的代码，其考虑是分词模型具有实现快速、工作量小的优点，同时响应速度和实时性都非常优秀，当原有词条数量比较大，或者连续口述的词条数比较多的时候，优点尤其突出。

图4为本发明实施例提供的一种语音识别装置图。

第二方面，结合图4，本发明实施例还提供一种语音识别装置，包括：

获取模块401和第一得到模块402：用于获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度。

具体的，本申请实施例中获取模块401获取待识别语音，待识别语音可以是讲话人连续口述多个词条如“慢点吸气憋气保持住”，在原离线模型下无法识别，通过本申请离线模型的第一得到模块402可以得到连续口述多个词条“慢点吸气憋气保持住”对应的文本和“慢点吸气憋气保持住”的置信度。

第二得到模块403：用于将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度。

具体的，本申请实施例中将连续口述多个词条“慢点吸气憋气保持住”对应的文本输入到分词模型中第二得到模块403得到“慢点吸气”、“憋气”、“保持住”三个词条以及三个词条对应的置信度，这里的三个词条对应的置信度和“慢点吸气憋气保持住”的置信度是同一个值。

判断模块404和输出模块405：用于将词条序列中每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。

具体的，本申请实施例中，将词条序列以及词条序列中每个词条对应的置信度输入到逻辑判断模块中判断模块404确定每个词条是有效的语音或噪音，并通过输出模块405依次输出，如输出“慢点吸气”是有效语音、“憋气”是有效语音、“保持住”是噪音。应理解，本申请实施例中的“慢点吸气”、“憋气”、“保持住”三个词条是举例说明，也可以是别的词条，这里不一一举例说明，并不以此限定本申请的保护范围。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种语音识别方法。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的语音识别方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的语音识别方法各实施例的步骤。

获取待识别语音，将所述待识别语音输入离线模型得到待识别语音对应的文本和待识别语音对应的置信度；

将所述待识别语音文本输入分词模型得到词条序列以及词条序列中每个词条对应的置信度；

将词条序列中每个词条对应的置信度输入到逻辑判断模块判断每个词条是有效的语音或噪音，并输出所述有效的语音或所述噪音。

本申请实施例提供的语音识别方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的语音识别方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成语音识别方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

11页详细技术资料下载

一种语音识别方法、装置、电子设备和存储介质

相关技术

网友询问留言