音频测试方法、装置、存储介质及电子设备

文档序号：1642244 发布日期：2019-12-20 浏览：6次 >En<

阅读说明：本技术 音频测试方法、装置、存储介质及电子设备 (Audio testing method and device, storage medium and electronic equipment ) 是由陈喆于 2019-08-30 设计创作，主要内容包括：本申请实施例公开了一种音频测试方法、装置、存储介质及电子设备,其中,电子设备通过麦克风循环采集预设次数待校验音频信号用于其中专用语音识别芯片的一级校验和处理器的二级校验,并利用预设计数应用接收专用语音识别芯片在一级校验通过时发送的第一指示信息,实现对专用语音识别芯片校验成功次数的统计,得到第一计数结果,以及利用预设计数应用接收处理器在二级校验通过时发送的第二指示信息,实现对处理器校验成功次数的统计,得到第二计数结果。最后,根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率,根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率,实现对电子设备唤醒率的高效测试。(The embodiment of the application discloses an audio test method, an audio test device, a storage medium and electronic equipment, wherein the electronic equipment circularly collects audio signals to be verified for preset times through a microphone and is used for primary verification of a special voice recognition chip and secondary verification of a processor, the preset counting application is utilized to receive first indication information sent by the special voice recognition chip when the primary verification is passed, statistics on the verification success times of the special voice recognition chip is achieved, a first counting result is obtained, the preset counting application is utilized to receive second indication information sent by the processor when the secondary verification is passed, statistics on the verification success times of the processor is achieved, and a second counting result is obtained. And finally, counting according to the first counting result and the preset times to obtain a first awakening rate of the special voice recognition chip, counting according to the first counting result and the second counting result to obtain a second awakening rate of the processor, and realizing high-efficiency test of the awakening rate of the electronic equipment.)

音频测试方法、装置、存储介质及电子设备

技术领域

本申请涉及音频测试领域，具体涉及一种音频测试方法、装置、存储介质及电子设备。

背景技术

语音识别是智能手机、平板电脑等电子设备获取用户意图的重要途径，目前，语音识别功能已成为众多电子设备的标配功能，比如，用户可以在不方便直接操控电子设备的情况下说出语音指令来控制电子设备。

应当说明的是，语音识别的可以分为唤醒和识别两个流程，当电子设备被唤醒后，才能够对电子设备进行语音控制，这也使得唤醒率成为电子设备的一个重要性能指标，如何高效的测试得到电子设备的唤醒率变得尤为重要。

发明内容

本申请实施例提供了一种音频测试方法、装置、存储介质及电子设备，能够高效的测试得到电子设备的唤醒率。

第一方面，本申请实施例提供了一种音频测试方法，应用于电子设备，所述电子设备包括麦克风、专用语音识别芯片和处理器，将所述电子设备放置在预先搭建的测试环境中，所述测试环境中设置有用于播放测试语音的语音播放设备，所述测试语音为包括预设唤醒词的纯净语音信号，所述音频测试方法包括：

通过所述麦克风进行音频采集得到待校验音频信号，并将所述待校验音频信号提供给所述专用语音识别芯片；

通过所述专用语音识别芯片对所述待校验音频信号进行一级校验，并在校验通过时将所述待校验音频信号提供给所述处理器，以及发送第一指示信息至预设计数应用，指示所述预设计数应用进行计数，以得到对应所述专用语音识别芯片的第一计数结果；

通过所述处理器对所述待校验音频信号进行二级校验，并在校验通过时发送第二指示信息至所述预设计数应用，指示所述预设计数应用进行计数，以得到对应所述处理器的第二计数结果；

判断进行一级校验的次数是否达到预设次数，否则重新通过所述麦克风采集待校验音频信号进行校验，是则获取所述第一计数结果以及所述第二计数结果；

根据所述第一计数结果和所述预设次数统计得到所述专用语音识别芯片的第一唤醒率，以及根据所述第一计数结果和所述第二计数结果统计得到所述处理器的第二唤醒率。

第二方面，本申请实施例提供了一种音频测试装置，应用于电子设备，所述电子设备包括麦克风、专用语音识别芯片和处理器，将所述电子设备放置在预先搭建的测试环境中，所述测试环境中设置有用于播放测试语音的语音播放设备，所述测试语音为包括预设唤醒词的纯净语音信号，所述音频测试装置包括：

音频采集模块，用于通过所述麦克风进行音频采集得到待校验音频信号，并将所述待校验音频信号提供给所述专用语音识别芯片；

一级校验模块，用于通过所述专用语音识别芯片对所述待校验音频信号进行一级校验，并在校验通过时将所述待校验音频信号提供给所述处理器，以及发送第一指示信息至预设计数应用，指示所述预设计数应用进行计数，以得到对应所述专用语音识别芯片的第一计数结果；

二级校验模块，用于通过所述处理器对所述待校验音频信号进行二级校验，并在校验通过时发送第二指示信息至所述预设计数应用，指示所述预设计数应用进行计数，以得到对应所述处理器的第二计数结果；

结果获取模块，用于判断进行一级校验的次数是否达到预设次数，否则重新通过所述麦克风采集待校验音频信号进行校验，是则获取所述第一计数结果以及所述第二计数结果；

计数统计模块，用于根据所述第一计数结果和所述预设次数统计得到所述专用语音识别芯片的第一唤醒率，以及根据所述第一计数结果和所述第二计数结果统计得到所述处理器的第二唤醒率。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器和专用语音识别芯片加载以执行本申请实施例提供的音频测试方法。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括麦克风、专用语音识别芯片、处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述专用语音识别芯片和处理器调用时用于执行本申请实施例提供的音频测试方法。

本申请实施例中，通过麦克风循环采集预设次数待校验音频信号用于其中专用语音识别芯片的一级校验和处理器的二级校验，并利用预设计数应用接收专用语音识别芯片在一级校验通过时发送的第一指示信息，实现对专用语音识别芯片校验成功次数的统计，得到第一计数结果，以及利用预设计数应用接收处理器在二级校验通过时发送的第二指示信息，实现对处理器校验成功次数的统计，得到第二计数结果。最后，根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率，根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率，实现对电子设备唤醒率的高效测试。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频测试方法的一流程示意图。

图2是本申请实施例中调用一级文本校验模型的示意图。

图3是本申请实施例中搭建的测试环境的示意图。

图4是本申请实施例提供的音频测试方法的另一流程示意图

图5是本申请实施例提供的音频测试装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种音频测试方法、音频测试装置、存储介质以及电子设备，其中，该音频测试方法的执行主体可以是本申请实施例提供的音频测试装置，或者集成了该音频测试装置的电子设备，其中该音频测试装置可以采用硬件或者软件的方式实现，电子设备可为计算设备诸如膝上型计算机、包含嵌入式计算机的计算机监视器、平板电脑、蜂窝电话、媒体播放器、或其他手持式或便携式电子设备、较小的设备(诸如腕表设备、挂式设备、耳机或听筒设备、被嵌入在眼镜中的设备或者佩戴在用户的头部上的其他设备，或其他可佩戴式或微型设备)、电视机、不包含嵌入式计算机的计算机显示器、游戏设备、导航设备、嵌入式系统(诸如其中具有显示器的电子设备被安装在信息亭或汽车中的系统)等。

如图1所示，本申请实施例提供的音频测试方法的流程可以如下：

101，通过麦克风进行音频采集得到待校验音频信号，并将待校验音频信号提供给专用语音识别芯片。

本申请实施例中，预先搭建用于进行音频测试的测试环境。比如，为了排除外界干扰，可以搭建隔音的测试环境，其中，测试环境中设置有用于播放测试语音的语音播放设备，测试语音为包括预设唤醒词的纯净语音信号，比如，语音播放设备可以为人工头，其以5秒为间隔，循环播放测试语音。应当说明的是，预设唤醒词可由本领域普通技术人员根据实际需要进行设置，本申请实施例中对此不作具体限制，比如，可以设置为“小欧小欧”。

在开始进行音频测试前，将进行音频测试的电子设备放置在测试环境中，以通过语音播放设备播放测试语音模拟真实使用场景对电子设备进行音频测试，确定其唤醒率。

应当说明的是，本申请实施例中的电子设备包括麦克风、专用语音识别芯片和处理器，其中，专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，但处理能力相对较弱。由于专用语音识别芯片的处理能力不及处理器的处理能力，在进行语音唤醒时，先由专用语音识别芯片对采集的音频信号进行一级校验，也即进行大致的校验，当一级校验通过时，再由处理器对采集的音频信号进行二级校验，确保整体的校验准确性，当二级校验通过时，再唤醒语音交互应用，实现与用户的语音交互。其中，语音交互应用也称为语音助手，比如“小欧”等。

在进行音频测试时，电子设备通过设置的麦克风的进行音频采集，从而采集到对应测试语音的音频信号，并将该音频信号记为待校验音频信号。

其中，电子设备所设置的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。假设麦克风为模拟制式的麦克风，那么将采集到模拟制式的待校验音频信号，此时需要将采集到的待校验音频信号进行模数转换，得到数字化的待校验音频信号，用于后续处理。本领域普通技术人员可以理解的是，若电子设备所设置的麦克风为数字制式的麦克风，那么将直接采集到数字化的待校验音频信号，无需再进行模数转换。

在采集得到待校验音频信号之后，电子设备将采集到的待校验音频信号提供给专用语音识别芯片。

102，通过专用语音识别芯片对待校验音频信号进行一级校验，并在校验通过时将待校验音频信号提供给处理器，以及发送第一指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应专用语音识别芯片的第一计数结果。

其中，对待校验音频信号进行一级校验包括校验待校验音频信号的文本特征，或者校验待校验音频信号的文本特征和声纹特征，具体可由本领域普通技术人员根据实际情况进行设置，比如，本申请实施例中仅由专用语音识别芯片对待校验音频信号的文本特征进行校验。

通俗的说，校验文本特征也即是校验待校验音频信号中是否包括预设唤醒词，只要校验出待校验音频信号中包括预设唤醒词，则其文本特征将校验通过，而不论该预设唤醒词由谁说出。

其中，在对待校验音频信号进行一级校验时，专用语音识别芯片可以加载预先训练的用于校验音频信号中是否包括预设唤醒词的一级唤醒模型，通过该一级唤醒模型对待校验音频信号进行一级校验。

应当说明的是，本申请实施例中还在专用语音识别芯片增加消息发送机制，使得专用语音识别芯片在对待校验音频信号的一级校验通过时，发送第一指示信息至电子设备的操作系统。

示例性的，以下以电子设备运行安卓系统为例进行说明。

专用语音识别芯片在对待校验音频信号的一级校验通过时，发送第一指示信息至电子设备的安卓系统。

另一方面，本申请实施例中还预先设计有计数应用，可由本领域普通技术人员根据实际需要选择合适的编程语言编程得到。为了能够获知专用语音识别芯片对待校验音频信号的一级校验是否通过，预设计数应用预先在安卓系统注册第一指示信息，使得安卓系统能够将第一指示信息推送给预设计数应用。

预设计数应用在接收到第一指示信息时，根据该第一指示信息进行计数，以得到对应专用语音识别芯片的第一计数结果，比如，预设计数应用创建有对应专用语音识别芯片的、初始值为零的第一计数值，并在每次接收到第一指示信息，也即是每一次专用语音识别芯片对采集的待校验音频信号的一级校验通过时，对第一计数值加一，由此实现对专用语音识别芯片校验成功次数的统计，得到第一计数结果。

此外，专用语音识别芯片在对待校验音频信号的一级校验通过时，将此次通过麦克风采集的待校验音频信号提供给处理器。

此外，应当说明的是，由于采集的待校验音频信号的原因和/或一级唤醒模型的原因，将导致采集的待校验音频信号无法通过一级校验，此时，不发送第一指示信息，并丢弃此次采集的待校验音频信号，转入104。

103，通过处理器对待校验音频信号进行二级校验，并在校验通过时发送第二指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二计数结果。

其中，对待校验音频信号进行二级校验包括校验待校验音频信号的文本特征，或者校验待校验音频信号的文本特征和声纹特征，具体可由本领域普通技术人员根据实际情况进行设置，比如，本申请实施例中由处理器对待校验音频信号的文本特征和声纹特征进行校验。

比如，在对待校验音频信号进行二级校验时，处理器可以加载预先训练的用于校验音频信号中是否包括预设唤醒词，且声纹特征是否与预设声纹特征匹配的二级唤醒模型，通过该二级唤醒模型对待校验音频信号进行二级校验。

处理器在对待校验音频信号的二级校验通过时，发送第二指示信息至电子设备的安卓系统。

相应的，为了能够获知处理器对待校验音频信号的二级校验是否通过，预设计数应用预先在安卓系统注册第二指示信息，使得安卓系统能够将第二指示信息推送给预设计数应用。从而在接收到第二指示信息时，根据该第二指示信息进行计数，以得到对应处理器的第二计数结果，比如，预设计数应用创建有对应处理器的、初始值为零的第二计数值，并在每次接收到第二指示信息，也即是每一次处理器对采集的待校验音频信号的二级校验通过时，对第二计数值加一，由此实现对处理器校验成功次数的统计，得到第二计数结果。

此外，应当说明的是，由于采集的待校验音频信号的原因和/或二级唤醒模型的原因，将导致采集的待校验音频信号无法通过二级校验，此时，不发送第二指示信息，并丢弃此次采集的待校验音频信号，转入104。

104，判断进行一级校验的次数是否达到预设次数，否则重新通过麦克风采集待校验音频信号进行校验，是则获取第一计数结果以及第二计数结果。

应当说明的是，电子设备还对进行一级校验的次数进行统计，当每次通过处理器完成对待校验音频信号的二级校验后，判断已进行的一级校验的次数的是否达到预设次数。其中，预设次数可由本领域普通技术人员根据实际需要进行设置，比如，可以设置为100次。

当进行的一级校验的次数达到预设次数时，电子设备从预设计数应用获取到第一计数结果以及第二计数结果。

当进行的一级校验的次数未达到预设次数时，电子设备重新通过麦克风采集待校验音频信号进行校验，直至进行一级校验的校验次数达到预设次数时，从预设计数应用获取到第一计数结果以及第二计数结果。

105，根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率，以及根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率。

比如，预设次数可以设置为100，即需要由专用语音识别芯片进行100次一级校验，假设第一计数结果为88，即进行的100次一级校验中共有88次通过校验，可以统计得到专用语音识别芯片的第一唤醒率为99/100＝99％；假设第二计数结果为98，如上所述，由于在一级校验失败时，并不进行二级校验，仅在一级校验通过时进行二级校验，即进行的99次二级校验中共有98次通过校验，可以统计得到处理器的第二唤醒率为98/99＝99％。此外，还可以根据第二计数结果和预设次数统计专用语音识别芯片和处理器的整体唤醒率，记为第三唤醒率，为98/100＝98％。

由上可知，本申请实施例通过麦克风循环采集预设次数待校验音频信号用于专用语音识别芯片的一级校验和处理器的二级校验，并利用预设计数应用接收专用语音识别芯片在一级校验通过时发送的第一指示信息，实现对专用语音识别芯片校验成功次数的统计，得到第一计数结果，以及利用预设计数应用接收处理器在二级校验通过时发送的第二指示信息，实现对处理器校验成功次数的统计，得到第二计数结果。最后，根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率，根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率，实现对电子设备唤醒率的高效测试。

在一实施例中，第二指示信息包括第二文本指示信息和第二声纹指示信息，第二计数结果包括第二文本计数结果和第二声纹计数结果，第二唤醒率包括第二文本唤醒率和第二声纹唤醒率，“通过处理器对待校验音频信号进行二级校验”，包括：

(1)通过处理器调用预先训练的对应预设唤醒词的二级文本校验模型，校验待校验音频信号中是否包括预设唤醒词，若校验通过则发送第二文本指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二文本计数结果；

(2)通过处理器调用预先训练的对应测试语音的二级声纹校验模型，校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配，若校验通过则发送第二声纹指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二声纹计数结果；

根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率，包括：

(3)根据第二文本计数结果和第一计数结果统计得到第二文本唤醒率，以及根据第二声纹计数结果和第二文本计数结果统计得到第二声纹唤醒率。

本申请实施例中，以处理器进行的二级校验包括文本特征和声纹特征的校验为例进行说明。

在通过处理器对待校验音频信号进行二级校验时，首先通过处理器调用预先训练的对应预设唤醒词的二级文本校验模型，利用该二级文本校验模型校验待校验音频信号中是否包括预设唤醒词。

示例性的，二级文本校验模型可由评分函数训练得到，其中，评分函数用于将向量映射到数值，以此为约束，可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数，本发明实施例对此不做具体限制。

在利用二级文本校验模型校验待校验音频信号中是否包括预设唤醒词时，首先提取能够表征待校验音频信号的特征向量，将该特征向量输入到二级文本校验模型中进行评分，得到对应的评分分值。然后，比较该评分分值以及二级文本校验模型对应的判别分值，若评分分值达到二级文本校验模型对应的判别分值，则判定待校验音频信号中包括预设唤醒词。

其中，在校验出待校验音频信号中包括预设唤醒词时，处理器发送第二文本指示信息至安卓系统。相应的，为了能够获知处理器对待校验音频信号文本特征的校验是否通过，预设计数应用预先在安卓系统注册第二文本指示信息，使得安卓系统能够将第二文本指示信息推送给预设计数应用。从而在接收到第二文本指示信息时，根据该第二文本指示信息进行计数，以得到对应处理器的第二文本计数结果，比如，预设计数应用创建有对应处理器的、初始值为零的第二文本计数值，并在每次接收到第二文本指示信息，也即是每一次处理器对采集的待校验音频信号的文本特征校验通过时，对第二文本计数值加一，由此实现对处理器校验文本特征成功次数的统计，得到第二文本计数结果。

此外，电子设备还在对待校验音频信号的文本特征校验通过时，通过处理器调用预先训练的对应测试语音的二级声纹校验模型，并利用该二级声纹校验模型校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配。

示例性的，二级声纹校验模型可由二级文本校验模型基于测试语音进一步训练得到。在利用二级声纹校验模型校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配时，首先提取能够表征待校验音频信号的特征向量，将该特征向量输入到二级声纹校验模型中进行评分，得到对应的评分分值。然后，比较该评分分值以及二级声纹校验模型对应的判别分值，若评分分值达到二级声纹校验模型对应的判别分值，则判定待校验音频信号的声纹特征与测试语音的声纹特征匹配。

其中，在校验出待校验音频信号的声纹特征与测试语音的声纹特征匹配时，处理器发送第二声纹指示信息至安卓系统。相应的，为了能够获知处理器对待校验音频信号声纹特征的校验是否通过，预设计数应用预先在安卓系统注册第二声纹指示信息，使得安卓系统能够将第二声纹指示信息推送给预设计数应用。从而在接收到第二声纹指示信息时，根据该第二声纹指示信息进行计数，以得到对应处理器的第二声纹计数结果，比如，预设计数应用创建有对应处理器的、初始值为零的第二声纹计数值，并在每次接收到第二声纹指示信息，也即是每一次处理器对采集的待校验音频信号的声纹特征校验通过时，对第二声纹计数值加一，由此实现对处理器校验声纹特征成功次数的统计，得到第二声纹计数结果。

此外，在待校验音频信号的文本特征或声纹特征未通过校验时，转入104。

在一实施例中，“通过麦克风进行音频采集得到待校验音频信号”之前，还包括：

(1)获取预先训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

(2)通过麦克风进行音频采集得到样本音频信号；

(3)提取样本音频信号的声学特征，并基于通用校验模型对声学特征进行自适应处理，将自适应处理后的通用校验模型设为二级声纹校验模型。

比如，在开始进行音频测试前，可以预先采集多人(比如200人)说出预设唤醒词的样本音频信号，然后分别提取这些样本音频信号的声学特征(比如梅尔频率倒谱系数)，再根据这些样本音频信号的声学特征训练得到一个与预设唤醒词对应的通用校验模型。由于通用校验模型采用大量与特定人(即用户)无关的音频信号训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

本申请实施例中，在开始进行音频测试前，获取预先训练的对应预设唤醒词的通用校验模型，将该通用校验模型设为二级文本校验模型。

此外，电子设备还通过设置的麦克风的进行音频采集，从而采集到对应测试语音的音频信号，并将该音频信号记为样本音频信号。然后，电子设备提取样本音频信号的声学特征，并基于通用校验模型对声学特征进行自适应处理，将自适应处理后的通用校验模型设为二级声纹校验模型。其中，该自适应处理可以采用最大后验估计算法实现。

在一实施例中，测试场景中还设置有噪声播放设备，噪声播放设备用于播放预设场景的样本噪声。

本申请实施例中，还设置有噪声播放设备，该噪声播放设备用于播放预设场景的样本噪声，从而测试电子设备在预设场景下的唤醒率。其中，对于选取何种场景的样本噪声，可由本领域普通技术人员根据实际需要进行选取，比如，通过噪声设备播放地铁场景的样本噪声，可以测试电子设备在地铁场景下的唤醒率。

在一实施例中，“通过麦克风进行音频采集得到待校验音频信号”之前，还包括：

(1)获取语音播放设备播放测试语音的第一分贝值，以及获取噪声播放设备播放样本噪声的第二分贝值；

(2)当第一分贝值和第二分贝值满足预设测试条件时，通过麦克风进行音频采集得到待校验音频信号。

本申请实施例中，为了确保音频测试的正常进行，需要保证测试时一定的信噪比。

比如，在开始进行测试前，将分贝仪放置在电子设备相同位置处，通过该分贝仪获取语音播放设备播放测试语音的第一分贝值，以及获取噪声播放设备播放样本噪声的第二分贝值，然后，计算第一分贝值和第二分贝值的比值，作为测试环境的信噪比。

相应的，可以将预设测试条件设置为测试环境的信噪比达到预设信噪比，对于预设信噪比的取值，可由本领域普通技术人员根据实际需要取值。

电子设备在根据第一分贝值以及第二分贝值计算得到测试环境的信噪比之后，判断该信噪比是否达到预设信噪比，是则通过麦克风进行音频采集得到待校验音频信号，开始进行音频测试。

在一实施例中，“通过专用语音识别芯片对待校验音频信号进行一级校验”，包括：

(1)通过专用语音识别芯片调用预先训练的场景分类模型对待校验音频信号进行场景分类，得到场景分类结果；

(2)通过专用语音识别芯片调用预先训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词。

本申请实施例中，以专用语音识别芯片进行的一级校验包括文本特征的校验为例进行说明。

应当说明的是，本申请实施例中还根据不同已知场景的样本音频信号，采用机器学习算法预先训练有场景分类模型，利用该场景分类模型可以实现对电子设备所处场景的分类。

由于测试环境中不仅设置有语音播放设备，还设置有噪声播放设备，电子设备采集的待校验音频信号可以看做由两部分组成，即对应测试语音的部分和对应样本噪声的部分。相应的，在通过专用语音识别芯片对待校验音频信号进行一级校验时，首先通过专用语音识别芯片调用预先训练的场景分类模型，利用该场景分类模型对待校验音频信号进行分类，得到场景分类结果。该场景分类结果即描述了噪声播放设备通过播放样本噪声所模拟的场景。

应当说明的是，本申请实施例在电子设备中预先设置有一级文本校验模型集合，一级文本校验模型集合中包括多个预先在不同场景下训练得到的对应预设唤醒词的一级文本校验模型，以适于专用语音识别芯片在不同的场景下加载，从而更灵活准确的对采集的待校验音频信号中是否包括预设唤醒词进行校验。

相应的，在得到对应待校验音频信号的场景分类结果之后，电子设备即通过专用语音识别芯片从一级文本校验模型集合中调用对应该场景分类结果的一级文本校验模型，并通过该一级文本校验模型校验待校验音频信号中是否包括预设唤醒词，是则判定通过一级校验。

比如，请参照图2，一级文本校验模型集合中包括四个一级文本校验模型，分别为适于在A场景进行音频校验的一级文本校验模型A、适于在B场景进行音频校验的一级文本校验模型B、适于在C场景进行音频校验的一级文本校验模型C以及适于在D场景进行音频校验的一级文本校验模型D。假设场景分类结果指示待校验音频信号对应的场景为B场景，则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型B；假设场景分类结果指示待校验音频信号对应的场景为B场景，则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型B，以此类推。

请结合参照图3和图4，图3为本申请实施例中进行音频测试的测试环境的示意图，如图3所示，首先搭建隔音的测试环境，并在测试环境中设置人工头作为用于播放测试语音的语音播放设备，以及设置扬声器作为用于播放样本噪声的噪声播放设备，此外，测试环境中还设置有计算机，作为对人工头和扬声器进行播放控制的主控设备。本领域普通技术人员根据实际需要，确定电子设备在测试环境中的放置位置，并将电子设备放置在确定的该放置位置。

其中，电子设备包括专用语音识别芯片和处理器。在进行语音唤醒时，先由专用语音识别芯片对采集的音频信号进行一级校验，也即进行大致的校验，当一级校验通过时，再由处理器对采集的音频信号进行二级校验，确保整体的校验准确性，当二级校验通过时，再唤醒语音交互应用，实现与用户的语音交互。其中，语音交互应用称为语音助手，比如“小欧”等。

其中，在计算机的控制下，人工头每间隔5秒循环播放包括预设唤醒词的纯净语音信号，记为测试语音，扬声器持续播放样本噪声，模拟预设场景，从而校验电子设备在该预设场景下的唤醒率。

在开始进行音频测试前，将分贝仪放置在电子设备的相同位置处，电子设备通过该分贝仪获取人工头播放测试语音的第一分贝值，以及获取扬声器播放样本噪声的第二分贝值，根据第一分贝值和第二分贝值计算得到对应的信噪比，当信噪比未达到预设信噪比时，电子设备发送指示信息至计算机，由计算机调整人工头和/或扬声器的播放音量，直至信噪比达到预设信噪比时，按照图4所示的音频测试流程进行音频测试：

201，专用语音识别芯片通过麦克风进行音频采集得到待校验音频信号。

202，专用语音识别芯片加载一级文本唤醒模型对待校验音频信号进行校验，若校验通过则转入203，若校验失败则转入208。

203，专用语音识别芯片将待校验音频信号提供给处理器，以及发送第一指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应专用语音识别芯片的第一计数结果。

204，处理器调用二级文本唤醒模型对待校验音频信号进行校验，若校验通过则转入205，若校验失败则转入208。

205，处理器发送第二文本指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二文本计数结果。

206，处理器调用声纹唤醒模型对待校验音频信号进行校验，若校验通过则转入207，若校验失败则转入208。

207，处理器发送第二声纹指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二声纹计数结果。

208，处理器判断专用语音识别芯片进行校验的次数是否达到预设次数，是则转入209，否则转入201。

209，处理器根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率，根据第二文本计数结果和第一计数结果统计得到处理器的第二文本唤醒率，以及根据第二声纹计数结果和第二文本计数结果统计得到处理器的第二声纹唤醒率。

请参照图5，图5为本申请实施例提供的音频测试装置的结构示意图。该音频测试装置可以应用于电子设备，该电子设备包括麦克风、专用语音识别芯片和处理器，将电子设备放置在预先搭建的测试环境中，测试环境中设置有用于播放测试语音的语音播放设备，测试语音为包括预设唤醒词的纯净语音信号。音频测试装置可以包括音频采集模块301、一级校验模块302、二级校验模块303、结果获取模块304以及计数统计模块305，其中，

音频采集模块301，用于通过麦克风进行音频采集得到待校验音频信号，并将待校验音频信号提供给专用语音识别芯片；

一级校验模块302，用于通过专用语音识别芯片对待校验音频信号进行一级校验，并在校验通过时将待校验音频信号提供给处理器，以及发送第一指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应专用语音识别芯片的第一计数结果；

二级校验模块303，用于通过处理器对待校验音频信号进行二级校验，并在校验通过时发送第二指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二计数结果；

结果获取模块304，用于判断进行一级校验的次数是否达到预设次数，否则指示音频采集模块301重新通过麦克风采集待校验音频信号进行校验，是则获取第一计数结果以及第二计数结果；

计数统计模块305，用于根据第一计数结果和预设次数统计得到专用语音识别芯片的第一唤醒率，以及根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率。

在一实施例中，第二指示信息包括第二文本指示信息和第二声纹指示信息，第二计数结果包括第二文本计数结果和第二声纹计数结果，第二唤醒率包括第二文本唤醒率和第二声纹唤醒率，在通过处理器对待校验音频信号进行二级校验时，二级校验模块303用于：

通过处理器调用预先训练的对应预设唤醒词的二级文本校验模型，校验待校验音频信号中是否包括预设唤醒词，若校验通过则发送第二文本指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二文本计数结果；

通过处理器调用预先训练的对应测试语音的二级声纹校验模型，校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配，若校验通过则发送第二声纹指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器的第二声纹计数结果；

而在根据第一计数结果和第二计数结果统计得到处理器的第二唤醒率时，计数统计模块305用于：

根据第二文本计数结果和第一计数结果统计得到第二文本唤醒率，以及根据第二声纹计数结果和第二文本计数结果统计得到第二声纹唤醒率。

在一实施例中，音频测试装置还包括模型训练模块，在通过麦克风进行音频采集得到待校验音频信号之前，用于：

获取预先训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

通过麦克风进行音频采集得到样本音频信号；

提取样本音频信号的声学特征，并基于通用校验模型对声学特征进行自适应处理，将自适应处理后的通用校验模型设为二级声纹校验模型。

在一实施例中，测试场景中还设置有噪声播放设备，噪声播放设备用于播放预设场景的样本噪声。

在一实施例中，在通过麦克风进行音频采集得到待校验音频信号之前，音频采集模块301还用于：

获取语音播放设备播放测试语音的第一分贝值，以及获取噪声播放设备播放样本噪声的第二分贝值；

当第一分贝值和第二分贝值满足预设测试条件时，通过麦克风进行音频采集得到待校验音频信号。

在一实施例中，在通过专用语音识别芯片对待校验音频信号进行一级校验时，一级校验模块302用于：

通过专用语音识别芯片调用预先训练的场景分类模型对待校验音频信号进行场景分类，得到场景分类结果；

通过专用语音识别芯片调用预先训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词，是则判定通过一级校验。

在一实施例中，结果获取模块304还用于在一级校验或二级校验失败时，判断进行一级校验的次数是否达到预设次数，是则获取第一计数结果以及第二计数结果，否则指示音频采集模块301重新通过麦克风采集待校验音频信号进行校验。

应当说明的是，本申请实施例提供的音频测试装置与上文实施例中的音频测试方法属于同一构思，在音频测试装置上可以运行音频测试方法实施例中提供的任一方法，其具体实现过程详见特征获取方法实施例，此处不再赘述。

本申请实施例还提供一种存储介质，其上存储有计算机程序，当其存储的计算机程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的音频测试方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图6，电子设备包括处理器401、存储器402、麦克风403和专用语音识别芯片404。

本申请实施例中的处理器401是通用处理器，比如ARM架构的处理器。

专用语音识别芯片402是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器401，具有更低的功耗，但处理能力相对较弱。

其中，存储器402中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器402还可以包括存储器控制器，以提供处理器401、专用语音识别芯片404对存储器402的访问。

将电子设备放置在预先搭建的测试环境中，该测试环境中设置有用于播放测试语音的语音播放设备，测试语音为包括预设唤醒词的纯净语音信号。

处理器401和专用语音识别芯片404通过调用存储器402中的计算机程序，用于执行：

专用语音识别芯片404通过麦克风403进行音频采集得到待校验音频信号；

专用语音识别芯片404对待校验音频信号进行一级校验，并在校验通过时将待校验音频信号提供给处理器401，以及发送第一指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应专用语音识别芯片404的第一计数结果；

处理器401对待校验音频信号进行二级校验，并在校验通过时发送第二指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器401的第二计数结果；

处理器401判断进行一级校验的次数是否达到预设次数，是则获取第一计数结果以及第二计数结果，否则指示专用语音识别芯片404重新通过麦克风采集待校验音频信号进行校验；

处理器401根据第一计数结果和预设次数统计得到专用语音识别芯片404的第一唤醒率，以及根据第一计数结果和第二计数结果统计得到处理器401的第二唤醒率。

请参照图7，图7为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括输入单元405和输出单元406等组件。

其中，输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元406可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，处理器401和专用语音识别芯片404通过调用存储器402中的计算机程序，用于执行：

专用语音识别芯片404通过麦克风403进行音频采集得到待校验音频信号；

在一实施例中，第二指示信息包括第二文本指示信息和第二声纹指示信息，第二计数结果包括第二文本计数结果和第二声纹计数结果，第二唤醒率包括第二文本唤醒率和第二声纹唤醒率，在对待校验音频信号进行二级校验时，处理器401用于执行：

调用预先训练的对应预设唤醒词的二级文本校验模型，校验待校验音频信号中是否包括预设唤醒词，若校验通过则发送第二文本指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器401的第二文本计数结果；

调用预先训练的对应测试语音的二级声纹校验模型，校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配，若校验通过则发送第二声纹指示信息至预设计数应用，指示预设计数应用进行计数，以得到对应处理器401的第二声纹计数结果；

而在根据第一计数结果和第二计数结果统计得到处理器401的第二唤醒率时，处理器401用于执行：

根据第二文本计数结果和第一计数结果统计得到第二文本唤醒率，以及根据第二声纹计数结果和第二文本计数结果统计得到第二声纹唤醒率。

在一实施例中，在通过麦克风进行音频采集得到待校验音频信号之前，处理器401还用于执行：

获取预先训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

通过麦克风403进行音频采集得到样本音频信号；

提取样本音频信号的声学特征，并基于通用校验模型对声学特征进行自适应处理，将自适应处理后的通用校验模型设为二级声纹校验模型。

在一实施例中，测试场景中还设置有噪声播放设备，噪声播放设备用于播放预设场景的样本噪声。

在一实施例中，在通过麦克风进行音频采集得到待校验音频信号之前，专用语音识别芯片404还用于执行：

获取语音播放设备播放测试语音的第一分贝值，以及获取噪声播放设备播放样本噪声的第二分贝值；

当第一分贝值和第二分贝值满足预设测试条件时，通过麦克风403进行音频采集得到待校验音频信号。

在一实施例中，在对待校验音频信号进行一级校验时，专用语音识别芯片404用于执行：

调用预先训练的场景分类模型对待校验音频信号进行场景分类，得到场景分类结果；

调用预先训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词，是则判定通过一级校验。

在一实施例中，在一级校验或二级校验失败时，处理器401转入执行判断进行一级校验的次数是否达到预设次数，是则获取第一计数结果以及第二计数结果，否则指示专用语音识别芯片404重新通过麦克风采集待校验音频信号进行校验。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频测试方法属于同一构思，在电子设备上可以运行音频测试方法实施例中提供的任一方法，其具体实现过程详见特征获取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频测试方法而言，本领域普通测试人员可以理解实现本申请实施例的音频测试方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如音频测试方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频测试方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：集群音频警报系统巡检方法及装置

音频测试方法、装置、存储介质及电子设备

相关技术

网友询问留言