语音识别方法、装置、电子设备和计算机可读存储介质

文档序号：1467487 发布日期：2020-02-21 浏览：28次 >En<

阅读说明：本技术 语音识别方法、装置、电子设备和计算机可读存储介质 (Speech recognition method, speech recognition device, electronic equipment and computer-readable storage medium ) 是由谭志鹏谭北平于 2019-12-06 设计创作，主要内容包括：本申请提供一种语音识别方法、装置、电子设备和计算机可读存储介质，涉及语音识别技术领域。该语音识别方法应用于电子设备，电子设备维护有标准语音库和类比预测模型，该语音识别方法包括：根据用户输入的待识别语音信息获取第一特征信息；第一特征信息用于确定电子设备的反馈信息；判断第一特征信息与标准语音库是否匹配；若匹配，则执行与第一特征信息对应的第一目标操作；若不匹配，则根据第一特征信息和类比预测模型，执行第二目标操作。在每次用户语音输入信息后，将语音信息中的特征信息与标准语音库进行比对，比对不成功时，使用类比预测模型补充语音信息中的特征信息，并执行相应的操作，提高用户体验。(The application provides a voice recognition method, a voice recognition device, electronic equipment and a computer readable storage medium, and relates to the technical field of voice recognition. The speech recognition method is applied to electronic equipment, the electronic equipment maintains a standard speech base and an analog prediction model, and the speech recognition method comprises the following steps: acquiring first characteristic information according to voice information to be recognized input by a user; the first characteristic information is used for determining feedback information of the electronic equipment; judging whether the first characteristic information is matched with a standard voice library or not; if so, executing a first target operation corresponding to the first characteristic information; if not, executing a second target operation according to the first characteristic information and the analogy prediction model. After the user inputs information by voice each time, the characteristic information in the voice information is compared with a standard voice library, and when the comparison is unsuccessful, the characteristic information in the voice information is supplemented by using an analog prediction model, and corresponding operation is executed, so that the user experience is improved.)

技术领域

本申请涉及语音识别技术领域，具体而言，涉及语音识别方法、装置、电子设备和计算机可读存储介质。

背景技术

语音交互技术作为当下高速发展的人工智能之一，已经深入到人类社会生活的方方面面。人机对话系统主要分为两类：目标驱动型人机对话系统和非目标驱动型人机对话系统。随着用户个性化需求的增加，语音交互必须向更加人性化、精确化的方向深入发展。

在目前的语音识别技术中，一次人机语音对话经常需要个体多次重复输入语音信息，语音系统也需要多次循环执行语音识别、数据搜索、语音反馈等各个程序，才能完成机器与用户之间的沟通。由于语音系统存在着误差，个体语音输入也存在着模糊性或不连续性，因此这种语音交互是不精确的，识别效率低下，远不能满足用户的需求。因此，如何根据用户的语音信息准确的执行操作是目前需要解决的问题。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的之一在于提供一种语音识别方法、装置、电子设备和计算机可读存储介质。

第一方面，实施例提供一种语音识别方法，应用于电子设备，所述电子设备维护有标准语音库和类比预测模型，所述类比预测模型用于根据语音特征确定所述电子设备的操作信息。所述方法包括：根据用户输入的待识别语音信息获取第一特征信息；所述第一特征信息用于确定所述电子设备的反馈信息；判断所述第一特征信息与所述标准语音库是否匹配；若匹配，则执行与所述第一特征信息对应的第一目标操作；若不匹配，则根据所述第一特征信息和所述类比预测模型，执行第二目标操作。

在可选的实施方式中，所述电子设备还维护有个性语音库，所述个性语音库包括多个特定特征信息。在所述根据所述第一特征信息和所述类比预测模型，执行第二目标操作之前，所述方法还包括：根据所述多个特定特征信息，获取所述类比预测模型。

在可选的实施方式中，所述方法还包括：将所述第一特征信息存储至所述个性语音库。

在可选的实施方式中，所述电子设备还维护有类比信息库，所述根据所述多个特定特征信息，获取所述类比预测模型，包括：获取所述多个特定特征信息的相关度信息；将多个训练特征信息存储至所述类比信息库；所述训练特征信息为所述多个特定特征信息中，所述相关度信息满足预设条件的特定特征信息；根据所述类比信息库，获取所述类比预测模型。

第二方面，实施例提供一种语音识别装置，包括：获取模块、判断模块和控制模块。所述语音识别装置维护有标准语音库和类比预测模型，所述类比预测模型用于根据语音特征确定所述语音识别装置的操作信息；所述获取模块用于根据用户输入的待识别语音信息获取第一特征信息；所述第一特征信息用于确定所述语音识别装置的反馈信息；所述判断模块用于判断所述第一特征信息与所述标准语音库是否匹配；所述控制模块用于当所述第一特征信息与所述标准语音库匹配时，执行与所述第一特征信息对应的第一目标操作；所述控制模块还用于当所述第一特征信息与所述标准语音库不匹配时，根据所述第一特征信息和所述类比预测模型，执行第二目标操作。

在可选的实施方式中，所述语音识别装置还维护有个性语音库，所述个性语音库包括多个特定特征信息；所述获取模块还用于根据所述多个特定特征信息，获取所述类比预测模型。

在可选的实施方式中，还包括存储模块。所述存储模块用于将所述第一特征信息存储至所述个性语音库。

在可选的实施方式中，所述语音识别装置还维护有类比信息库。所述获取模块还用于获取所述多个特定特征信息的相关度信息；所述控制模块还用于将多个训练特征信息存储至所述类比信息库；所述训练特征信息为所述多个特定特征信息中，所述相关度信息满足预设条件的特定特征信息；所述获取模块还用于根据所述类比信息库，获取所述类比预测模型。

第三方面，实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现前述实施方式任一项所述的语音识别方法。

第四方面，实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施方式任一项所述的语音识别方法。

相对于现有技术而言，本申请提供一种语音识别方法、装置、电子设备和计算机可读存储介质，涉及语音识别技术领域。该语音识别方法应用于电子设备，电子设备维护有标准语音库和类比预测模型，该语音识别方法包括：根据用户输入的待识别语音信息获取第一特征信息；第一特征信息用于确定电子设备的反馈信息；判断第一特征信息与标准语音库是否匹配；若匹配，则执行与第一特征信息对应的第一目标操作；若不匹配，则根据第一特征信息和类比预测模型，执行第二目标操作。在每次用户语音输入信息后，将语音信息中的特征信息与标准语音库进行比对，比对不成功时，使用类比预测模型补充语音信息中的特征信息，并执行相应的操作，提高用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的方框示意图；

图2为本申请实施例提供的一种语音识别方法的流程示意图；

图3为本申请实施例提供的另一种语音识别方法的流程示意图；

图4为本申请实施例提供的另一种语音识别方法的流程示意图；

图5为本申请实施例提供的另一种语音识别方法的流程示意图；

图6为本申请实施例提供的另一种语音识别方法的流程示意图；

图7为本申请实施例提供的一种语音识别装置的方框示意图；

图8为本申请实施例提供的另一种语音识别装置的方框示意图。

图标：100-电子设备，110-处理器，120-外部存储器接口，121-内部存储器，130-USB接口，140-充电管理模块，141-电源管理模块，142-电池，150-移动通信模块，160-无线通信模块，170-音频模块，170A-扬声器，170B-受话器，170C-麦克风，170D-耳机接口，180-传感器模块，194-显示屏，40-语音识别装置，41-获取模块，42-判断模块，43-控制模块，44-存储模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

现有技术的方案中不能根据用户输入的模糊语音或不连续语音执行相应的操作，同时，个体语音输入存在着模糊性和不连续性，因此现有技术实现的语音交互是不准确的。基于上述问题和背景技术提出的问题，本申请实施例提供了一种语音识别方法，可以应用于电子设备。

本申请实施例提供的语音识别方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(Universal Serial Bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，显示屏194等。其中传感器模块180可以包括压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(Application Processor，AP)，调制解调处理器，图形处理器(Graphics ProcessingUnit，GPU)，图像信号处理器(Image Signal Processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(Digital Signal Processor，DSP)，基带处理器，和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(Inter-Integrated Circuit，I2C)接口，集成电路内置音频(Inter-Integrated CircuitSound，I2S)接口，脉冲编码调制(Pulse Code Modulation，PCM)接口，通用异步收发传输器(Universal Asynchronous Receiver/Transmitter，UART)接口，移动产业处理器接口(Mobile Industry Processor Interface，MIPI)，通用输入输出(General-PurposeInput/Output，GPIO)接口，用户标识模块(Subscriber Identity Module，SIM)接口，和/或通用串行总线(Universal Serial Bus，USB)接口等。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐或接收语音信息的功能。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(Low Noise Amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星系统(Global Navigation Satellite System，GNSS)，调频(Frequency Modulation，FM)，近距离无线通信技术(Near Field Communication，NFC)，红外技术(Infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(Global System for Mobile Communications，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址接入(CodeDivision Multiple Access，CDMA)、宽带码分多址(Wideband Code Division MultipleAccess，WCDMA)、时分码分多址(Time-Division Code Division Multiple Access，TDSCDMA)、长期演进(Long Term Evolution，LTE)、BT、GNSS、WLAN、NFC、FM、和/或IR技术等。GNSS可以包括全球卫星定位系统(Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(BeidouNavigation Satellite System，BDS)，准天顶卫星系统(Quasi-Zenith SatelliteSystem，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-Matrix Organic Light EmittingDiode，AMOLED)、柔性发光二极管(Flex Light-Emitting Diode，FLED)、Miniled、MicroLed、Micro-OLED、量子点发光二极管(Quantum Dot Light Emitting Diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

基于图1示出的电子设备100，本申请实施例提出的一种可能的语音识别方法，该语音识别方法应用于上述的电子设备100，以电子设备100维护有标准语音库和类比预测模型为例，类比预测模型用于根据语音特征确定电子设备的操作信息，请参见图2，图2为本申请实施例提供的一种语音识别方法的流程示意图。该语音识别方法包括：

S200、根据用户输入的待识别语音信息获取第一特征信息。

该第一特征信息用于确定电子设备的反馈信息。例如，上述获取第一特征信息的过程可以是：开始使用电子设备上的语音识别系统，把用户输入的模拟信号转化为数字信号输入到系统；对收入的数字音频信号依据预设标准进行，使用自适应差分脉冲编码调制法(Adaptive Differential Pulse Code Modulation，ADPCM)进行音频调制；完成模数转化后，对音频文件进行读取并格式转化；对音频进行重采样、分帧处理后构造出输入音频对应的海明窗，并进行语音解码；在语音解码后提取上述的第一特征信息。

S201、判断第一特征信息与标准语音库是否匹配。

应理解，该标准语音库可以是开发人员为了实现语音交互而配置的常用语音以及对应的操作信息，也可以是用户在已有模板的基础上添加了个人习惯的语音以及对应的操作信息。

若匹配，则执行S202；若不匹配，则执行S204。

S202、执行与第一特征信息对应的第一目标操作。

S204、根据第一特征信息和类比预测模型，执行第二目标操作。

可以理解的，上述的第一目标操作和第二目标操作可以是以下的任一项或组合：电子设备反馈语音信息、搜索内容、执行指令等。

在每次用户语音输入信息后，将语音信息中的特征信息与标准语音库进行比对，比对不成功时，使用类比预测模型补充语音信息中的特征信息，并执行相应的操作，提高用户体验。可以理解的，上述使用类比预测模型，执行第二目标操作的过程可以是：对第一特征信息进行预测后，将其对应的用户输入的语音信息补充完成，由电子设备执行相应的第二目标操作。例如，可以是电子设备100通过显示屏194显示和待识别语音信息中的第一特征信息对应的页面或打开相应的应用程序等。

为了便于理解上述的语音识别方法，上述实现特征信息获取和处理的过程可以为：在音频信号传输过程中，可以利用相位抵消的原理来减少干扰，例如使用并列的三根导线：接地、热端、冷端，在此种情况下，平衡输入、输出插件必须具有三个脚位。可以预见的，可以使用ADPCM技术对当前语音数据与前一语音数据(前一语音数据为量化处理后的值)之差进行编码。用较少的bit量化出数据差，进而达到压缩的目的；其中，ADPCM用浮动的bit位数来进行语音压缩。由于频域的压缩引起频谱镜像效应，在下采样前经过滤波器防止混迭，上采样前也要经过滤波器防止混迭。使用过去的语音样本值估算下一个输入语音样本的预测值，使实际样本值和预测值之间的差值总是最小，进而实现对模糊语音或不连续语音的目标操作进行确定。

在可选的实施方式中，为了获取类比预测模型，在图2的基础上，以电子设备还维护有个性语音库为例，个性语音库包括多个特定特征信息，请参见图3，图3为本申请实施例提供的另一种语音识别方法的流程示意图。在S202之前，上述的语音识别方法还可以包括：

S203、根据多个特定特征信息，获取类比预测模型。

应理解，该特定特征信息主要用于训练类比预测模型，其可以是开发人员事先设置的特征信息，也可以是用户使用语音识别系统之前，录入的语音特征信息，从而完成对类比预测模型的训练。可以预见的是，类比预测模型可以是在使用之前就已经固化参数的模型，也可以是语音识别过程中不断学习和迭代的模型。

为了便于理解上述的获取类比预测模型的过程，本申请实施例提供一种可能的实现方式：使用线性预测编码(Linear Prediction Coding，LPC)系数根据线性预测法分析语音信号相邻样值之间的关系，得到一组相关的参数；使用语音特派生的声学特征还有线谱对(Linear Spectrum Pair，LSP)、PARCOR系数、对数面积比系数等；采用Mel频率人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。将海明窗的第一旁瓣衰减为42dB.海明窗的频谱也由三个矩形时窗的频谱合成，但其旁瓣衰减速度为20dB/(10oct)。将待发送的比特信号幅度做相应的变化，当该比特信号与前一位发送的比特信号不同的时候，就将当前比特信号的幅度以合适的倍数增大，当该比特信号与前一位比特信号相同的时候，则不作任何处理。将不能够识别的语音信息，分配到个性语音库；对高频率的特征信息进行分类，电子设备在输出信息前进行预测和类比构建出类比预测模型，并使用类比预测模型补充完善未识别到的特征信息。

在可选的实施方式中，为了训练类比预测模型，在图3的基础上，给出一种可能的实现方式，请参见图4，图4为本申请实施例提供的另一种语音识别方法的流程示意图。该语音识别方法还包括：

S205、将第一特征信息存储至个性语音库。

可以理解的，将多次收到不能识别的第一特征信息存储到个性语音库，并将该第一特征信息作为上述的特定特征信息以便构建一个类比预测模型，对新接收到的特征信息执行与标准语音库进行匹配的动作。通过在语音识别的使用过程中对个性语音库中的数据进行更新，进而可以实现类比预测模型的更新，以便提高语音识别的识别率，提高用户的语音交互体验。可以预见的，把不能识别的语音数据分配到个性语音库，对高频的词(第一特征信息)进行分类，提高了废除数据的利用率；对不能识别的信息构建预测模型，提高了输出信息和用户指令的匹配度；可以更精确的对用户输入信息进行反馈；对高频词汇进行分类，加快了运行速率。

在可选的实施方式中，为了获取类比预测模型，对于上述的S203，以电子设备还维护有类比信息库为例，请参见图5，图5为本申请实施例提供的另一种语音识别方法的流程示意图。上述的S203可以包括：

S203a、获取多个特定特征信息的相关度信息。

S203b、将多个训练特征信息存储至类比信息库。训练特征信息为多个特定特征信息中，相关度信息满足预设条件的特定特征信息。

S203c、根据类比信息库，获取类比预测模型。

获取多个特定特征信息的相关度信息，根据用户个性语音中收入的特征信息中关键词出现的频率进行归类，并对各关键词之间相关性计算，进而获取符合收敛条件的类比预测模型，实现了对类比预测模型的学习和训练。可以预见的，若在语音识别过程中对类比预测模型进行训练，可以有效的提高使用类比预测模型执行和待识别语音信息匹配的准确率。

为了便于理解上述任一实施例提出的语音识别方法，本申请实施例提供另一种语音识别发，请参见图6，图6为本申请实施例提供的另一种语音识别方法的流程示意图。

首先获取用户输入的模拟音频信号，将可识别语音通过模拟音频信号输入，跟据输入音频信号水平自动动态地调整增益的机制。当音量(无论是捕捉到的音量还是再现的音量)超过某一门限值，信号就会被限幅。限幅指的是音频设备的输出不再随着输入而变化，输出实质上变成了最大音量位置上的一条水平线；当检测到音频增益达到了某一门限时，它会自动减小增益来避免限幅的发生。如果捕捉到的音量太低时，系统将自动提高增益。增益的调整不会使音量超过用户在调节向导中设置的门限值。

将收录语音执行ADPCM差值编码，假定对第k个数据进行压缩。初始数据条件可以是：

待压缩数据：ss[k]；

前一次解码数据：sp[k-1]；

标尺：step[k]；

码格式：code_format[k]；

求数据差：diff[k]＝abs(ss[k]-sp[k-1])；求符号：sign＝sig(ss[k]-sp[k-1])。

根据code_format[k]指定的格式(bit位数)，用step[k]对diff[k]进行量化编码得出压缩码code[k]，以及code[k]的解码差分值vpdiff[k]。

通过模数转换器，模拟音频信号进行转换并输出为数字音频信号。电子设备读取并识别数字音频信号文件。电子设备将所读取出的Pcm格式、wav文件及uint8转换为int6类或更高，首先对一些类型使用了重定义，读取文件头信息，在读完数据长度之后就全是数据了，直接使用fread按uint32格式读取数据即可(即一帧)。数字音频进入重采样程序，进行频率调节，上采样时所采用的滤波器截止频率为Pi/L.(可由时域信号的采样公式及傅里叶变换推导出)；下采样(M)时所采用的滤波器截止频率为Pi/M。预加重程序开启，将在传输线的始端对高频信号进行补偿。分帧处理音频数据，每一帧为10—30ms。构造海明窗，数字音频信号执行分段式数据处理，平稳信号。分段式处理后的音频将执行傅里叶变换程序，合成信号，最终生成语谱图。将数字信息转化为原信息并进行解码，将解码后的语音信息存入个性语音库。提取语音信息特征，按不同特征进行分类整合，保存入个性语音库。电子设备判断特征信息是否与标准语音库匹配：若不一致，电子设备将第一特征信息存储至个性语音库，并执行类比预测模型程序，以便执行第二目标操作；若匹配，则执行与第一特征信息对应的第一目标操作。

可以理解的，若使用DSP，则其实现方法简便、程序可移植性强、处理速度快。还可以添加AGC算法，将输出电平保持在一定范围之内，可以解决不同人说话音频不均衡的问题。通过读取wav格式文件，可以达到比标准ADPCM更大的压缩比和较小的量化误差。可以对上下采样前的滤波器过滤即抗混迭滤波和抗镜像滤波，以减少频谱、基频以及共振峰的变化。在有信道噪声和频谱失真的情况下，通过抗混迭滤波和抗镜像滤波，本申请的语音识别方法仍具有较高的识别精度，特别是对噪声情况下的识别具有一定的鲁棒性。或，在传输线的始端增强信号的高频成分，补偿高频分量在传输过程中的过大衰减，同时预加重对噪声并没有影响，因此有效地提高了输出信噪比。针对语音的频谱，可以减小从2000Hz至4000Hz下降的斜率；在4000Hz处原谱图中约为80dB，预加重后约为90dB。

可以理解的，上述的类比预测模型获取和使用还可以是：将个性语音库中的不同特征信息进行相似性计算，存在相关性的归为可类比性语音特征信息。根据可类比语音特征信息之间的结构特征和发展规律，对与此特征信息存在相关性明显的信息进行精准预测。语音识别过程中：电子设备判断信息特征的相关性，将存在相关性的信息特征录入类比信息库；并对录入的可类比信息进行精准预测；此外，还可以对精准预测后的信息执行预测后信息完整补充，输出信息指令，执行第二目标操作。

为了实现上述的语音识别方法，本申请实施例还提供一种语音识别装置，请参见图7，图7为本申请实施例提供的一种语音识别装置的方框示意图。该语音识别装置包括：获取模块41、判断模块42和控制模块43。

语音识别装置40维护有标准语音库和类比预测模型，类比预测模型用于根据语音特征确定语音识别装置40的操作信息。

获取模块41用于根据用户输入的待识别语音信息获取第一特征信息。第一特征信息用于确定语音识别装置40的反馈信息。

判断模块42用于判断第一特征信息与标准语音库是否匹配。

控制模块43用于当第一特征信息与标准语音库匹配时，执行与第一特征信息对应的第一目标操作。控制模块43还用于当第一特征信息与标准语音库不匹配时，根据第一特征信息和类比预测模型，执行第二目标操作。

可以理解的，上述的获取模块41、判断模块42和控制模块43可以协同实现上述的S200～S204。

在可选的实施方式中，为了获取类比预测模型，以语音识别装置40还维护有个性语音库，个性语音库包括多个特定特征信息为例：获取模块41还用于根据多个特定特征信息，获取类比预测模型。应理解，获取模块41还可以用于执行上述的S203。

在可选的实施方式中，为了优化类比预测模型，在图7的基础上述，给出一种可能的实现方式，请参见图8，图8为本申请实施例提供的另一种语音识别装置的方框示意图。语音识别装置40还包括存储模块44。存储模块44用于将第一特征信息存储至个性语音库。应理解，存储模块44还可以用于执行上述的S205。

在可选的实施方式中，为了获取类比预测模型，以语音识别装置40还维护有类比信息库为例：获取模块41还用于获取多个特定特征信息的相关度信息。控制模块43还用于将多个训练特征信息存储至类比信息库。训练特征信息为多个特定特征信息中，相关度信息满足预设条件的特定特征信息。获取模块41还用于根据类比信息库，获取类比预测模型。应理解，获取模块41和控制模块43还可以协同实现上述的S203a、S203b和S203c。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的语音识别方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供一种语音识别方法、装置、电子设备和计算机可读存储介质，涉及语音识别技术领域。该语音识别方法应用于电子设备，电子设备维护有标准语音库和类比预测模型，该语音识别方法包括：根据用户输入的待识别语音信息获取第一特征信息；第一特征信息用于确定电子设备的反馈信息；判断第一特征信息与标准语音库是否匹配；若匹配，则执行与第一特征信息对应的第一目标操作；若不匹配，则根据第一特征信息和类比预测模型，执行第二目标操作。在每次用户语音输入信息后，将语音信息中的特征信息与标准语音库进行比对，比对不成功时，使用类比预测模型补充语音信息中的特征信息，并执行相应的操作，提高用户体验。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

17页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于条件生成式对抗网络的语种识别分类方法

语音识别方法、装置、电子设备和计算机可读存储介质

相关技术

网友询问留言