一种语音识别方法

文档序号:1876889 发布日期:2021-11-23 浏览:25次 >En<

阅读说明:本技术 一种语音识别方法 (Speech recognition method ) 是由 高君效 游萌 杨林 蒋明洲 江莲 于 2021-09-02 设计创作,主要内容包括:一种语音识别方法,包括如下步骤:S1.对不同语音识别终端,根据其功能编写功能信息;针对不同功能信息训练不同的语音识别模型,并将按功能信息区分的各个语音识别模型存储在语音命令处理设备中;S2.语音识别终端接收到语音命令时,将语音命令及功能信息一起发送给语音命令处理设备;S3.语音命令处理设备根据功能信息选择与功能信息匹配的语音识别模型;S4.语音命令处理设备调用选择的语音识别模型对语音命令进行识别,识别后将命令发送给语音识别终端。本发明可根据不同的语音识别终端所具备的不同功能调用对应的语音识别模型,提高了语音识别正确率。(A speech recognition method comprising the steps of: s1, compiling functional information for different voice recognition terminals according to functions of the different voice recognition terminals; training different voice recognition models aiming at different function information, and storing each voice recognition model distinguished according to the function information in voice command processing equipment; s2, when the voice recognition terminal receives the voice command, the voice command and the function information are sent to the voice command processing equipment together; s3, selecting a voice recognition model matched with the function information by the voice command processing equipment according to the function information; and S4, the voice command processing equipment calls the selected voice recognition model to recognize the voice command, and sends the command to the voice recognition terminal after recognition. The invention can call the corresponding voice recognition model according to different functions of different voice recognition terminals, thereby improving the accuracy of voice recognition.)

一种语音识别方法

技术领域

本发明属于语音识别技术领域,具体涉及一种语音识别方法。

背景技术

语音识别具备最接近人机自然交互方式的优点,是非常好的人机控制及获取所需服务的方式。当前的语音识别采用神经网络技术后,语音识别的效果大幅提升到90%以上,具备了商用的基础条件,已经广泛用于各类电子产品中。

目前基于神经网络的语音识别,需要事先训练语音识别模型,模型的效果直接影响到语音识别的性能。语音识别模型的效果和其训练时采用的语料,以及训练和解码方法有关,当前语音识别特别是云端语音识别需要支持多个语音功能,如播放歌曲、查询天气等等,因为功能涉及比较多,因此需要事先搜集各种场景下的对话语料,进行处理后训练生产符合这些功能的模型,再放到计算载体上进行实际应用。随着语音识别支持功能越来越多,所涉及的语料也越来越庞大,而且训练时如果加入了部分功能的语料,可能还会对发音相近的其它一些功能造成负面影响,再加上实际使用中出现的各种口音等问题,造成当前在大量语料训练得到的全功能复杂语音识别应用中,其识别效果难以提升,影响了实际使用中的体验感。

例如现阶段的语音云端识别,可以支持音乐播放,天气查询,数学学习,家电控制等非常多的功能,都是通过某个硬件终端采集处理本地的语音信号,然后直接通过网络传输到语音云服务器,由语音云服务器调用训练好的大模型进行解码。要支持这些海量的功能,就需要事先获取音乐播放、天气、数学学习、家电控制相关的大量语料数据,为保障效果,考虑到不同人说话口音、男声和女声、语速快慢,还需要增加对应的语料进行训练,产生能支持这些功能对应语音命令识别的模型。而这个大模型在使用时,很容易遇到不同功能之间命令词因相差不大,而增加误识别的情况,如用户说“我想开电视”以及“我想买电视”,这个分别属于不同的功能,一些硬件产品设备可能只支持家电控制如开电视,不支持电视购买功能,但另一部分硬件产品设备可能支持电视购买功能,不支持家电控制功能,现有语音云服务器都需要将这些语料收集起来进行训练,做成大模型,但因为这两句话只相差一个字,考虑到不同人说话口音等差异,极有可能误识,造成类似于家电控制设备进行开电视操作时,识别成了买电视,降低了识别效果和体验感,而这个问题难以通过训练和解码的方法进行根治。

发明内容

为克服现有技术存在的技术缺陷,本发明公开了一种语音识别方法。

本发明所述语音识别方法,包括如下步骤:

S1. 对不同语音识别终端,根据其功能编写功能信息;

针对不同功能信息训练不同的语音识别模型,并将按功能信息区分的各个语音识别模型存储在语音命令处理设备中;

S2. 语音识别终端接收到语音命令时,将语音命令及功能信息一起发送给语音命令处理设备;

S3. 语音命令处理设备根据功能信息选择与功能信息匹配的语音识别模型;

S4. 语音命令处理设备调用选择的语音识别模型对语音命令进行识别,识别后将命令发送给语音识别终端。

优选的,所述S1步骤中,针对不同功能信息训练不同的语音识别模型具体为:

训练通用模型,所述通用模型适用于全部功能信息,再利用不同功能信息对应的命令词集合对通用模型进行优化,得到不同的语音识别模型。

优选的,所述语音命令处理设备为语音云服务器或离线语音处理器。

优选的,所述语音识别终端和语音命令处理设备之间通过以太网、WIFI、蓝牙或有线连接方式通信。

优选的,所述S4步骤中,当前语音识别模型对当前语音命令无法识别时,语音命令处理设备不发送命令或发送提示错误命令。

本发明可根据不同的语音识别终端所具备的不同功能调用对应的语音识别模型,提高了语音识别正确率,通过语音识别终端建立独立传输通路,也可以保障多个产品使用同一个语音处理终端,兼顾了产品的易用性和易扩展性。

附图说明

图1为本发明所述语音识别方法的一个

具体实施方式

的流程示意图;

图2为本发明所述语音识别方法的一个具体应用环境示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明针对目前功能越来越全面,语音识别范围大幅增大的语音识别模型,这种语音识别模型通过海量语料训练,具备多种情景下语音识别功能的复杂语音识别模型,这类复杂语音识别模型在某个特定功能的产品中应用时,因训练用的海量语料中很可能混杂了对该特定功能有影响的语料,但直接去掉后对其他语音识别功能又会产生影响,复杂语音识别模型的识别效果往往难以兼顾各种不同语音识别场景。

本发明所述语音识别方法,如图1所示,包括如下步骤:

S1. 对不同语音识别终端,根据其功能编写功能信息;

针对不同功能信息训练不同的语音识别模型,并将按功能信息区分的各个语音识别模型存储在语音命令处理设备中;

一般而言,不同语音识别终端具备不同的功能,例如电视机只能播放直播节目,空调只能调节气温,微波炉只能加热食物,针对这些功能,不同的语音识别模型对于限定单一功能的语音识别终端的较小的命令集,通常具备较好的识别度。

功能信息定义了语音识别终端的功能,并关联了一个特定较小的命令词集合,例如电视机通常包括打开电视、频道加、音量加等命令,空调包括打开空调、温度增加、循环扫风等命令,不同功能对应了不同的命令词集合,训练不同的语音识别模型。

也可能存在一个语音识别终端对应两项以上功能,例如洗衣烘干一体机,既有洗衣也有烘干功能,此时命令词集合相应扩大,也可以训练得到相应的语音识别模型。

而对于以往的“大而全”的语音识别模型,例如可以同时处理电视机、微波炉和空调的全部命令词,则可能由于命令词数量增加,训练语料增加,造成识别度下降,例如“我要看电视”和“我要开电脑”命令词针对不同的语音识别设备,但相似度较高。

S1步骤中,针对不同功能信息训练不同的语音识别模型也可以采用以下方式:

训练一个通用模型,该通用模型类似于以往的全功能语音识别通用模型,适用于不同功能的语音识别终端,再利用不同功能信息对应的命令词集合对通用模型进行优化,得到不同的语音识别模型。

S2. 语音识别终端接收到语音命令时,将语音命令及功能信息一起发送给语音命令处理设备;

语音识别终端通过自带的麦克风等接收外部语音命令,将音频信号的语音命令初步处理成例如电学数字信号后和自身功能信息打包发送给语音命令处理设备。

S3. 语音命令处理设备根据功能信息选择与功能信息匹配的语音识别模型。

S4. 语音命令处理设备调用选择的语音识别模型对语音命令进行识别,识别后将命令发送给语音识别终端。

本发明实施时,语音识别终端事先已明确所支持的功能,如家电控制产品设备,仅支持家电控制,在语音识别终端启动时,会先通过网络传输家电控制功能字段的协议给语音云服务器,语音云服务器接到该协议后,分析出对接的语音识别终端是家电控制产品设备,可以进一步的识别出该家电控制产品设备为一个空调遥控器,如果语音识别终端是一个空调控制器,启动时先通过网络传输空调的功能信息给语音云服务器,语音云服务器识别出该语音识别终端是空调控制器,调用为空调控制训练的语音识别模型作为解码模型使用。当用户对空调控制器发出控制空调的语音指令时,空调控制器采集该语音指令信号,传输给语音云服务器,语音云服务器用空调对应的语音识别模型进行解码,所得到的语音效果相比通用模型要好,这样就提升了语音识别效果。

当用户对空调控制器发出非空调控制器语音指令时,因为空调控制器本身不支持非空调控制器语音指令,因此语音云服务器对该语音指令解码后会被归类为无效指令,不予响应,这样也保障了误识率最低。

一个语音云服务器可以内置多个不同的语音识别模型,根据不同的语音识别终端建立独立的传输通路,采用和语音识别终端所构成的产品功能对应的模型进行识别,也可以保障多个产品使用同一个语音处理终端,兼顾了产品的易用性和易扩展性。如图2所示,图2中,语音识别终端A、B、C分别对应使用语音识别模型A、B、C。

语音命令处理设备可采用语音云服务器,各个语音识别终端通过无线或有线通信方式与其进行通信,也可采用家庭内部不同的语音控制的家用电器对接一个离线语音处理器,该离线语音处理器可以事先内置支持家庭内部全部语音识别终端的多个语音识别模型,传输可以用以太网、WIFI、蓝牙等网络接口,也可以用串口等传统的数据接口。

具体实施例

分别对空调、洗衣机、电视机、冰箱编写功能信息,功能信息关联了一个命令词集。

例如空调的功能信息为“空气调节”,关联的命令词集包括“打开空调、温度增加,温度降低,左右扫风”等,利用命令词集训练出适合于实现“空气调节”功能的语音识别模型。将各个设备的对应的功能信息和对应的命令词集定义并训练出不同的语音识别模型后,将各个语音识别模型上传至语音云服务器储存。

空调接收到语音命令,将功能信息和语音命令发送到语音云服务器,语音云服务器根据功能信息调用“空气调节”对应的语音识别模型,再采用这一语音识别模型对语音命令进行解码识别后发送回解码后的命令,空调接收后执行命令。

如果语音云服务器调用的语音识别模型不能识别语音命令,说明这一语音命令不属于空调可执行命令,此时语音云服务器不发送结果或发送提示命令,例如指令空调的喇叭发出“不能识别命令词”,提示用户命令词错误。

前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:智能体控制装置、智能体控制方法以及记录有程序的记录介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!