远场语音适配方法、装置、设备及存储介质

文档序号：193341 发布日期：2021-11-02 浏览：47次 >En<

阅读说明：本技术 远场语音适配方法、装置、设备及存储介质 (Far-field voice adaptation method, device, equipment and storage medium ) 是由方伟于 2021-07-28 设计创作，主要内容包括：本发明涉及语音识别技术领域,公开一种远场语音适配方法、装置、设备及存储介质。本发明通过在检测到远场语音适配方案切换指令时,对初始配置文件中的远场语音配置项进行修改,获得目标配置文件,然后对目标配置文件进行解析,生成属性配置项,再根据属性配置项对当前远场语音适配方案进行切换。通过对初始配置文件中的远场语音配置项进行修改,能够得到需要的目标配置文件,然后重新解析目标配置文件,根据解析后生成的属性配置项切换至需要的远场语音适配方案,相较于现有技术中需要卸载并重新安装新应用方案,过程较为繁琐,本发明上述方式更加简单,可以在同一硬件及软件平台上适配多种远场语音适配方案,并且能够自动切换远场语音适配方案。(The invention relates to the technical field of voice recognition, and discloses a far-field voice adaptation method, a far-field voice adaptation device, far-field voice adaptation equipment and a far-field voice adaptation storage medium. According to the method, when a far-field voice adaptation scheme switching instruction is detected, a far-field voice configuration item in an initial configuration file is modified to obtain a target configuration file, the target configuration file is analyzed to generate an attribute configuration item, and then the current far-field voice adaptation scheme is switched according to the attribute configuration item. The method is simpler, can adapt to various far-field voice adaptation schemes on the same hardware and software platform, and can automatically switch the far-field voice adaptation schemes.)

远场语音适配方法、装置、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种远场语音适配方法、装置、设备及存储介质。

背景技术

随着科技的发展，远场语音识别应用场景也越来越多，目前在家电、电子产品、商务广告机等设备上都有落地方案。远场语音是一种融合了AI语音搜索、被广泛应用于智能电视、智能音箱中的AI语音交互技术，远场语音可实现5米距离的免遥控器语音控制，用户可在较远距离通过唤醒词直接说出指令进行智能电视及智能音箱的操控，免去传统蓝牙语音遥控器需要一直按压语音按键才能下达语音指令的繁琐操作。

另一方面，由于产品平台多样化，性能及功能差异较大，导致远场语音的适配方式也各不相同，远场语音的系统适配及验证非常繁琐。现有技术中的适配方案主要有两种，一是底层唤醒，录音数据前端处理，二是上层获取原始数据进行唤醒及前端处理，两种方式各有利弊，但都需要针对系统进行定制，可迁移能力差。并且由于硬件平台和系统版本的不同，一个平台只能上线一种远场语音适配方案，且适配工期长，遇到性能及功能问题，需要较长的解决问题时间。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种远场语音适配方法、装置、设备及存储介质，旨在解决现有技术中无法自动切换远场语音适配方案的技术问题。

为实现上述目的，本发明提供了一种远场语音适配方法，所述远场语音适配方法包括：

在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件；

对所述目标配置文件进行解析，生成属性配置项；

根据所述属性配置项对当前远场语音适配方案进行切换。

可选地，所述在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件的步骤之前，还包括：

获取关键标识信息，并在预设映射关系中查找所述关键标识信息对应的目标配置数据；

根据所述目标配置数据对缺省配置文件进行配置，获得初始配置文件。

可选地，所述在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件的步骤，具体包括：

在检测到远场语音适配方案切换指令时，根据所述远场语音适配方案切换指令从预先配置的自动化脚本中选取目标自动化脚本；

通过所述目标自动化脚本对初始配置文件中的各远场语音配置项进行修改，获得目标配置文件。

可选地，所述对所述目标配置文件进行解析，生成属性配置项的步骤，具体包括：

对系统服务进行重启，并在完成重启时通过预设程序对所述目标配置文件进行解析，生成属性配置项。

可选地，所述根据所述属性配置项对当前远场语音适配方案进行切换的步骤，具体包括：

根据所述属性配置项中的标识信息确定所述属性配置项的配置类型；

根据所述配置类型对当前远场语音适配方案进行切换。

可选地，所述根据所述配置类型对当前远场语音适配方案进行切换的步骤，具体包括：

在所述配置类型为上层应用类型时，将当前远场语音适配方案切换至上层应用适配方案；

在所述配置类型为底层服务类型时，将当前远场语音适配方案切换至底层服务适配方案。

可选地，所述根据所述属性配置项对当前远场语音适配方案进行切换的步骤之后，还包括：

根据切换结果确定目标远场语音适配方案；

获取所述目标远场语音适配方案的适配效果数据；

在所述适配效果数据不满足预设条件时，对所述目标远场语音适配方案进行切换。

此外，为实现上述目的，本发明还提出一种远场语音适配装置，所述远场语音适配装置包括：

配置修改模块，用于在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件；

配置解析模块，用于对所述目标配置文件进行解析，生成属性配置项；

方案切换模块，用于根据所述属性配置项对当前远场语音适配方案进行切换。

此外，为实现上述目的，本发明还提出一种远场语音适配设备，所述远场语音适配设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的远场语音适配程序，所述远场语音适配程序配置为实现如上文所述的远场语音适配方法。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有远场语音适配程序，所述远场语音适配程序被处理器执行时实现如上文所述的远场语音适配方法。

本发明通过在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件，然后对目标配置文件进行解析，生成属性配置项，再根据属性配置项对当前远场语音适配方案进行切换。本发明通过对初始配置文件中的远场语音配置项进行修改，能够得到需要的目标配置文件，然后重新解析目标配置文件，并根据解析后生成的属性配置项切换至需要的远场语音适配方案，相较于现有技术中需要卸载并重新安装新应用方案，过程较为繁琐，本发明上述方式更加简单，可以在同一硬件及软件平台上适配多种远场语音适配方案，并且能够自动切换远场语音适配方案。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的远场语音适配设备的结构示意图；

图2为本发明远场语音适配方法第一实施例的流程示意图；

图3为本发明远场语音适配方法第二实施例的流程示意图；

图4为本发明远场语音适配方法第三实施例的流程示意图；

图5为本发明远场语音适配装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的远场语音适配设备结构示意图。

如图1所示，该远场语音适配设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对远场语音适配设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及远场语音适配程序。

在图1所示的远场语音适配设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明远场语音适配设备中的处理器1001、存储器1005可以设置在远场语音适配设备中，所述远场语音适配设备通过处理器1001调用存储器1005中存储的远场语音适配程序，并执行本发明实施例提供的远场语音适配方法。

本发明实施例提供了一种远场语音适配方法，参照图2，图2为本发明远场语音适配方法第一实施例的流程示意图。

本实施例中，所述远场语音适配方法包括以下步骤：

步骤S10：在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件。

需要说明的是，本实施例的执行主体可以是上述具有数据处理、网络通信以及程序运行功能的远场语音适配设备，例如：电视机，也可以是能够实现相同或相似功能的其他设备，本实施例对此不做具体限制。在本实施例以及下述各实施例中以电视机为例对本发明远场语音适配方法进行说明。

可理解的是，远场语音适配方案切换指令是指对当前的远场语音适配方案进行切换的指令。

应理解的是，配置文件是一种计算机文件，可以为一些计算机程序配置参数和初始设置，配置文件包括注释内容和配置项内容，因此，通过修改配置项内容就可以修改配置文件。

在具体实现中，远程语音配置项可包括内置麦克风，算法类型，公司名称，麦克风编号、性能功能属性，热词功能，声纹功能等等，并且对这些远程语音配置项已经配置有对应值，对于具体值本实施例不做具体限制，对于远场语音配置项的内容本实施例也不做具体限制。

进一步地，为了获取初始配置文件，所述步骤S10之前，还包括：获取关键标识信息，并在预设映射关系中查找所述关键标识信息对应的目标配置数据；根据所述目标配置数据对缺省配置文件进行配置，获得初始配置文件。

需要说明的是，关键标识信息是指能够标识当前系统的属性的信息，例如：型号、芯片，对于每一种型号、芯片的电视机都会有对应的配置数据，本实施例对于关键标识信息的种类不做具体限制。

可理解的是，预设映射关系中开发人员会预先存储关键标识信息与配置数据之间的对应关系，因此通过预设映射关系可以查找到当前关键标识信息对应的目标配置数据。

在具体实现中，缺省配置文件可以是空白的配置文件，通过将目标配置数据添加至缺省配置文件中，能够得到初始配置文件。

本实施例通过根据关键标识信息得到初始配置文件，对于每一种型号的设备配置不同的配置文件，能够使得初始配置文件更加精确，从而能够自动切换远场语音适配方案。

步骤S20：对所述目标配置文件进行解析，生成属性配置项。

进一步地，所述步骤S20包括：对系统服务进行重启，并在完成重启时通过预设程序对所述目标配置文件进行解析，生成属性配置项。

需要说明的是，预设程序是指开发人员开发人员预先编写的并添加进系统的代码，对系统服务进行重启后，即可重新进行解析，对于用户而言，想要重启可以重启电视机，对于开发人员而言，想要重启可以重启上层应用和底层服务。

可理解的是，属性配置项中可包括是否有多路音频功能，是否有内置麦克风，算法是软件算法还是DSP算法，公司名称，麦克风的编号值，麦克风拥有多少通道，声纹是否支持，热词是否支持等等，还可包括其他的属性配置项，本实施例对此不做具体限制。

本实施例通过对系统服务进行重启，可重新解析配置文件，能够使属性配置项的内容更加精确，从而能够自动切换远场语音适配方案。

步骤S30：根据所述属性配置项对当前远场语音适配方案进行切换。

可理解的是，对每一个属性配置项进行赋值，根据每一项属性配置项的值可以切换当前远程语音适配方案。

进一步地，步骤S30之后，还包括：根据切换结果确定目标远场语音适配方案；获取所述目标远场语音适配方案的适配效果数据；在所述适配效果数据不满足预设条件时，对所述目标远场语音适配方案进行切换。

可理解的是，在对当前远场语音适配方案进行切换后，可获得切换后的目标远场语音适配方案，即上层应用和底层服务之间的一种适配方案。

应理解的是，适配效果数据是指目标远场语音适配方案与当前系统的适配效果数据。预设条件是指开发人员预先设置的条件，可以设置为CPU的占有率不超过某一数值，例如：10％、15％等等，本实施例对此不做具体限制，并且对于预设条件可根据实际情况设置，本实施例对此也不做具体限制。

在具体实现中，当目标远场语音适配方案为上层应用适配方案的时候，如果适配效果不好，则切换至底层服务适配方案，如果效果良好，则不需要进行切换；当目标远场语音适配方案为底层服务适配方案的时候，如果适配效果不好，则切换至上层应用适配方案，如果效果良好，则不需要进行切换。

本实施例在当前远场语音适配方案切换后，还判断切换后的远场语音适配方案的适配效果，能够在适配效果不好的情况下自动切换至另一个远场语音适配方案，从而提高用户体验。

本实施例通过在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件，然后对目标配置文件进行解析，生成属性配置项，再根据属性配置项对当前远场语音适配方案进行切换。本实施例通过对初始配置文件中的远场语音配置项进行修改，能够得到需要的目标配置文件，然后重新解析目标配置文件，并根据解析后生成的属性配置项切换至需要的远场语音适配方案，相较于现有技术中需要卸载并重新安装新应用方案，过程较为繁琐，本实施例上述方式更加简单，可以在同一硬件及软件平台上适配多种远场语音适配方案，并且能够自动切换远场语音适配方案。

参考图3，图3为本发明远场语音适配方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10包括：

步骤S101：在检测到远场语音适配方案切换指令时，根据所述远场语音适配方案切换指令从预先配置的自动化脚本中选取目标自动化脚本。

需要说明的是，预先配置的自动化脚本为开发人员预先写入系统里的脚本，此脚本可以对配置文件中的配置项进行修改。

可理解的是，对于每一个远场语音适配方案都有一个对应的自动化脚本，因此需要根据远场语音适配方案切换指令从预先配置的自动化脚本中选取该指令对应的目标自动化脚本。例如：当远场语音适配方案切换指令为切换至上层应用方案时，则需要从预先配置的自动化脚本中选取与上层应用相关的脚本；当远场语音适配方案切换指令为切换至下层服务方案时，则需要从预先配置的自动化脚本中选取与下层服务相关的脚本。

步骤S102：通过所述目标自动化脚本对初始配置文件中的各远场语音配置项进行修改，获得目标配置文件。

可理解的是，由于本实施例是针对远场语音适配方案进行修改的，所以只需要对与远场语音相关的配置项进行修改就可以实现本实施例的方案。

在具体实现中，目标自动化脚本可以修改配置项对应的值，例如：修改内置麦克风，算法类型，公司名称，麦克风编号、性能功能属性，热词功能，声纹功能对应的值，即可获得目标配置文件，还可包括其他类型，本实施例对此不做具体限制。

本实施例通过在检测到远场语音适配方案切换指令时，根据远场语音适配方案切换指令从预先配置的自动化脚本中选取目标自动化脚本，再通过目标自动化脚本对初始配置文件中的各远场语音配置项进行修改，获得目标配置文件。本实施例通过目标自动化脚本对初始配置文件中的各远场语音配置项进行修改，能够更加快速、便捷地修改远场语音配置项进行修改，从而能够自动切换远场语音适配方案。

参考图4，图4为本发明远场语音适配方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，所述步骤S30包括：

步骤S301：根据所述属性配置项中的标识信息确定所述属性配置项的配置类型。

需要说明的是，标识信息是指属性配置项中携带的每一种配置类型能够识别出的信息。

在具体实现中，配置类型主要分为两种，一种是上层应用类型，另一种是底层服务类型，上层应用类型是指上层获取原始数据进行唤醒及前端处理，底层服务类型是指底层唤醒，录音数据前端处理。这两种类型都各有利弊，对于上层应用类型，底层移植的工作量小，而应用的工作量大，而对于上层应用类型，则完全相反。

步骤S302：根据所述配置类型对当前远场语音适配方案进行切换。

进一步地，所述步骤S302包括：在所述配置类型为上层应用类型时，将当前远场语音适配方案切换至上层应用适配方案；在所述配置类型为底层服务类型时，将当前远场语音适配方案切换至底层服务适配方案。

在具体实现中，在远场语音适配方案切换后，开发人员会测试该方案是否完善，并对比验证及进行互相借鉴，提高了设备的远场语音适配效率，促进产品的快速落地。

本实施例通过配置类型对远场语音适配方案进行切换，对于每一种配置类型都有相应的切换方案，能够使得方案切换得更加便捷，并且能够自动切换远场语音适配方案。

可理解的是，远场语音适配方案可能不只有上述两种方案，但是对于其他的远场语音适配方案而言，也可以通过本发明上述实施例的方式在同一硬件及软件平台上适配两种及以上远场语音方案，并进行远场语音适配方案的切换。

本实施例通过根据属性配置项中的标识信息确定属性配置项的配置类型，再根据所述配置类型对当前远场语音适配方案进行切换。本实施例通过标识信息确定配置类型，而不是仅仅通过属性配置项确定配置类型，本实施例能够更加精确地确定配置类型，并且根据配置类型对当前远场语音适配方案进行切换，能够自动切换远场语音适配方案。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有远场语音适配程序，所述远场语音适配程序被处理器执行时实现如上文所述的远场语音适配方法。

参照图5，图5为本发明远场语音适配装置第一实施例的结构框图。

如图5所示，本发明实施例提出的远场语音适配装置包括：

配置修改模块501，用于在检测到远场语音适配方案切换指令时，对初始配置文件中的远场语音配置项进行修改，获得目标配置文件；

配置解析模块502，用于对所述目标配置文件进行解析，生成属性配置项；

方案切换模块503，用于根据所述属性配置项对当前远场语音适配方案进行切换。

基于本发明上述远场语音适配装置第一实施例，提出本发明远场语音适配装置的第二实施例。

在本实施例中，所述远场语音适配装置还包括文件获取模块500，所述文件获取模块500，用于获取关键标识信息，并在预设映射关系中查找所述关键标识信息对应的目标配置数据；根据所述目标配置数据对缺省配置文件进行配置，获得初始配置文件。

进一步地，所述配置修改模块501，还用于在检测到远场语音适配方案切换指令时，根据所述远场语音适配方案切换指令从预先配置的自动化脚本中选取目标自动化脚本；通过所述目标自动化脚本对初始配置文件中的各远场语音配置项进行修改，获得目标配置文件。

进一步地，所述配置解析模块502，还用于对系统服务进行重启，并在完成重启时通过预设程序对所述目标配置文件进行解析，生成属性配置项。

进一步地，所述方案切换模块503，还用于根据所述属性配置项中的标识信息确定所述属性配置项的配置类型；根据所述配置类型对当前远场语音适配方案进行切换。

进一步地，所述方案切换模块503，还用于在所述配置类型为上层应用类型时，将当前远场语音适配方案切换至上层应用适配方案；在所述配置类型为底层服务类型时，将当前远场语音适配方案切换至底层服务适配方案。

进一步地，所述远场语音适配装置还包括效果切换模块504，所述效果切换模块504，用于根据切换结果确定目标远场语音适配方案；获取所述目标远场语音适配方案的适配效果数据；在所述适配效果数据不满足预设条件时，对所述目标远场语音适配方案进行切换。

本发明远场语音适配装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

14页详细技术资料下载

远场语音适配方法、装置、设备及存储介质

相关技术

网友询问留言