基于混响模拟的语音识别测试方法及系统

文档序号：1955163 发布日期：2021-12-10 浏览：12次 >En<

阅读说明：本技术 基于混响模拟的语音识别测试方法及系统 (Voice recognition test method and system based on reverberation simulation ) 是由邹凯文于 2021-09-01 设计创作，主要内容包括：本发明提供了一种基于混响模拟的语音识别测试方法及系统,其方法包括如下步骤：首先,设置第一测试场景,第一测试场景的混响参数采集设备置于第一封闭边界内且环绕预设待测位置放置,混响参数采集设备对第一声源发出的第一测试音频进行混响参数采集,然后,设置第二测试场景,并且第二测试场景内的音频生成器生成拟真混响测试音频,第二音源发出拟真混响测试音频,待测设备接收拟真混响测试音频,最后,待测设备输出识别结果,处理器对识别结果进行判断；其系统包括第一测试场景、第二测试场景、待测设备和处理器。本发明中采用对真实混响进行模拟的方法,代替了传统的在真实环境中进行测试的方法,不再受场地制约,而且操作更加方便快捷。(The invention provides a voice recognition test method and a voice recognition test system based on reverberation simulation, wherein the method comprises the following steps: firstly, setting a first test scene, arranging reverberation parameter acquisition equipment of the first test scene in a first closed boundary and surrounding a preset position to be tested, carrying out reverberation parameter acquisition on a first test audio emitted by a first sound source by the reverberation parameter acquisition equipment, then, setting a second test scene, generating a simulated reverberation test audio by an audio generator in the second test scene, emitting a simulated reverberation test audio by a second sound source, receiving the simulated reverberation test audio by the equipment to be tested, finally, outputting a recognition result by the equipment to be tested, and judging the recognition result by a processor; the system comprises a first test scene, a second test scene, the equipment to be tested and a processor. The method for simulating the real reverberation replaces the traditional method for testing in the real environment, is not limited by the field, and is more convenient and faster to operate.)

基于混响模拟的语音识别测试方法及系统

技术领域

本发明涉及混响模拟技术领域，具体地，涉及基于混响模拟的语音识别测试方法及系统。

背景技术

语言一直以来是人与人之间最重要的交流方式，但是，随着人工智能快速发展，语言不再仅仅是人与人之间的交流方式，语言也成为了人与机器沟通的重要手段，人工智能语音识别技术作为人机交流接口，成为了人与机器沟通的关键技术，人工智能语音识别技术为我们的生活提供各种各样的可能性，使我们的生活更容易，并且它也能推动我们生活中各个领域的创新，在几乎所有领域都会有人工智能语音识别技术应用的机会，其中，包括工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等等领域。语音识别技术有巨大的市场潜力。

人工智能语音识别技术应用在人工智能语音设备上，人工智能语音设备存在着许多应用场景，如卧室、餐厅、会议室、阳台、厨房、浴室、音乐厅、会议室等等，上述不同的场景下的空间特性是一般是不一样的，因此，各场景的混响情况也不一样。

因为人工智能语音设备会应用在不同的混响场景下，因此人工智能语音设备在出厂前都会进行不同混响场景情况下的语音识别测试，人工智能语音设备在进行语音性能测试前，需要布置各种环境来模拟不同的混响状况，浪费了大量的人力物力，而且布置各种真实环境还会受到场地的制约，因此一些复杂的场景布置起来十分不便，而且在测试完一个场景后，需要将测试设备转移到另一个场景进行测试，因此无法同时对多个场景进行测试，效率低下。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于混响模拟的语音识别测试方法及系统。

第一方面，本发明提供一种基于混响模拟的语音识别测试方法，包括如下步骤：

步骤S1，设置第一测试场景，所述第一测试场景包括至少一个第一声源、若干第一封闭边界及多个混响参数采集设备，其中：

所述第一声源位于所述第一封闭边界内；

所述混响参数采集设备置于所述第一封闭边界内，并于三维空间中环绕预设待测位置放置；

步骤S2，通过所述第一声源发出的第一测试音频，所述第一测试音频经所述第一封闭边界的反射形成混响音，每个混响参数采集设备根据采集方向上接收到的所述混响音执行混响采集，并生成对应的混响参数；

步骤S3，根据所述混响参数和第二测试音频，生成拟真混响测试音频，所述第二测试音频包括代表预设测试指令的测试指令语料；

步骤S4，设置第二测试场景，所述第二测试场景包括第二封闭边界和多个第二声源，待测设备置于所述第二测试场景中，其中：

所述第二封闭边界用于实现内部封闭环境与外部开放环境间的隔音，以及消除所述内部封闭环境可能生成的所述混响音；

多个所述第二声源和所述待测设备均位于所述第二封闭边界内，所述待测设备与每个所述第二声源之间的相对位置关系与所述待测位置与每个混响参数采集设备之间的相对位置关系一致；

步骤S5，通过所述第二声源发出的所述拟真混响测试音频，所述待测设备根据接收到的所述拟真混响测试音频进行语音识别并生成相应的语音识别结果；

步骤S6，判断所述语音识别结果与所述预设测试指令是否相一致，并对所述判断结果进行记录。

可选地，所述第二声源发出的所述拟真混响测试音频，根据所述相对位置关系一致的所述混响参数采集设备生成的所述混响参数和所述第二测试音频生成。

可选地，于所述步骤S2中，所述混响采集包括：

步骤S21，所述第一声源于第一测试音频集合中，依次序提取一个所述第一测试音频进行发出，所述第一测试音频集合中包括多个频率不同的第一测试音频，每个所述第一测试音频具有相同的第一持续时间；

步骤S22，所述混响参数采集设备对所述采集方向上接收到的音频信号进行持续采集，获取所述音频信号的第二持续时间以及频率变化情况；

直至每个所述混响参数采集设备均无法采集到音频信号的情况时，再重复执行步骤S21至步骤S22，直至所述第一声源对所述第一测试音频集合中的全部所述第一测试音频完成播放。

可选地，所述混响参数包括每个所述第一测试音频的频率所对应的混响持续时间和频率衰变曲线；

所述混响持续时间包括对应频率下所述第二持续时间和所述第一持续时间的差值；

所述频率衰变曲线包括对应频率下所述混响持续时间内的所述频率变化情况。

可选地，于所述步骤S3中，所述拟真混响测试音频的生成包括：

步骤S31，对所述第二测试音频进行特征段提取，并获取所述特征段的平均频率；

步骤S32，根据所述平均频率，选择对应的所述混响参数，并基于选择的所述混响参数生成混响叠加音频；

步骤S33，将所述混响叠加音频与所述第二测试音频进行叠加，以生成所述拟真混响测试音频。

可选地，所述第二测试音频还包括代表所述预设测试指令的环境噪音语料，所述环境噪音语料用于为所述语音识别测试提供真实环境模拟。

可选地，所述拟真混响测试音频包括测试指令混响音频和环境噪音混响音频；

所述测试指令混响音频根据所述测试指令语料和所述混响参数生成；

所述环境噪音混响音频根据所述环境噪音语料和所述混响参数生成。

可选地，多个所述第二声源中的至少一部分发出所述测试指令混响音频；

多个所述第二声源中的至少一部分对所述环境噪音混响音频进行播。

可选地，发出所述测试指令混响音频的所述第二声源与所述待测设备处于同一水平面上。

第二方面，本发明还提供一种基于混响音模拟的语音识别测试系统，应用于上述所述的语音识别测试方法中，，包括：

第一测试场景，用于提供混响参数采集环境，包括至少一个第一声源、第一封闭边界以及多个混响采集设备，其中：

所述第一声源位于所述第一封闭边界内，用于发出第一测试音频，所述第一测试音频经所述第一封闭边界的反射形成混响音；

多个所述混响参数采集设备，置于所述第一封闭边界内，并于三维空间中环绕待测位置放置，用于根据采集方向上接收到的所述混响音执行混响采集，并生成对应的混响参数；

音频生成器，用于根据所述混响参数和第二测试音频生成拟真混响测试音频，所述第二测试音频包括代表预设测试指令的测试指令语料；

第二测试场景，用于为待测设备提供语音识别测试环境，所述第二测试场景包括第二封闭边界和多个第二声源，所述待测设备置于所述第二测试场景中，其中：

所述第二封闭边界用于实现内部封闭环境与外部开放环境间的隔音，以及消除所述内部封闭环境可能生成的所述混响音；

多个所述第二声源和所述待测设备均置于所述第二封闭边界内，且所述待测设备与每个所述第二声源之间的相对位置关系与所述待测位置与每个混响参数采集设备之间的相对位置关系一致，用于播放所述拟真混响测试音频；

所述待测设备用于对接收到的所述拟真混响测试音频进行语音识别并生成相应的语音识别结果；

处理器，判断所述语音识别结果与所述预设测试指令是否相一致，并对所述判断结果进行记录。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的基于混响模拟的语音识别测试方法及系统，采用对真实混响进行模拟的方法，代替了传统的在真实环境中进行测试的方法，不再受场地制约，而且操作更加方便快捷。

2、本发明提供的基于混响模拟的语音识别测试方法及系统，在同一个第二封闭边界内能够实现对多个不同场景的模拟，从而实现不同混响情况下的模拟测试，提高了其适用范围，而且完成一个场景的测试后也不需要转移到另一个测试环境中进行另一个场景的测试，整体的测试效率也得到了很大的提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的一种基于混响模拟的语音识别测试方法流程图；

图2为本发明实施例提供的一种基于混响模拟的语音识别测试系统的结构框图；

图3为本发明实施例提供的一种基于混响模拟的语音识别测试方法的1000Hz下混响参数曲线图；

图4为本发明实施例提供的一种基于混响模拟的语音识别测试方法的1100Hz下混响参数曲线图；

图5为本发明实施例提供的一种基于混响模拟的语音识别测试方法的混响参数采集图；

图中：

1-输入接口；

2-筛选器；

3-混响参数采集设备；

4-音频生成器；

5-音频播放设备；

6-存储器；

7-处理器；

8-待测设备；

9-第二封闭边界。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

在对本发明的实施例展开说明之前，先对混响进行简单的介绍说明，声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。

实施例

图1为本发明实施例提供的一种基于混响模拟的语音识别测试方法流程图，图2为本发明实施例提供的一种基于混响模拟的语音识别测试系统的结构框图；图3为本发明实施例提供的一种基于混响模拟的语音识别测试方法的1000Hz下混响参数曲线图；图4为本发明实施例提供的一种基于混响模拟的语音识别测试方法的1100Hz下混响参数曲线图；图5为本发明实施例提供的一种基于混响模拟的语音识别测试方法的混响参数采集图；参见图1、图3、图4和图5，本实施例中的方法包括：

步骤S1，设置第一测试场景，第一测试场景包括至少一个第一声源、若干第一封闭边界及多个混响参数采集设备，其中：

第一声源位于第一封闭边界内；

混响参数采集设备置于第一封闭边界内，并于三维空间中环绕预设待测位置放置。

在本实施例中，步骤S1中的第一封闭边可以是客厅、卧室或者会议室等，本申请对此不做具体限定，其中，第一声源一般位于第一封闭边界内常见的声音产生点，所谓的常见的声音产生点可以是常见的人所在的位置和电子设备所在的位置等，通过混响参数采集设备采集混响参数时，需要预设一个或者若干个待测位置，通过预设待测位置可以清楚的知道混响参数采集设备相对预设待测位置的坐标位置，从而方便后续步骤S4中的待测设备与每个第二声源之间位置的设置。

步骤S2，通过第一声源发出的第一测试音频，第一测试音频经第一封闭边界的反射形成混响音，每个混响参数采集设备根据采集方向上接收到的混响音执行混响采集，并生成对应的混响参数。

在本实施例中，混响参数可以包括脉冲文件，具体地，脉冲文件可以为一种快照，反映了物理空间或音频系统如何响应输入信号，并与输入信号结合产生一些输出。于上述实施例中，脉冲文件可以对应为代表混响参数的混响特征曲线。

在本实施例中，步骤S2中的第一测试音频可以是人发出的声音，也可以是电子设备发出的声音，混响参数采集设备采集方向可以是预设待测位置的上下左右前后共6个方位进行单独采集，也可以增加到12个方位或更多，通过多个方位的混响参数的采集，使得后面模拟真实的环境更加接近真实的环境。

步骤S3，根据混响参数和第二测试音频，生成拟真混响测试音频，第二测试音频包括代表预设测试指令的测试指令语料。

在本实施例中，预设测试指令一般包括测试指令语料和环境噪音语料，在进行语音性能测试时，需要具有最基础的测试指令语料，才能完成对语音性能的测试。

步骤S4，设置第二测试场景，第二测试场景包括第二封闭边界和多个第二声源，待测设备置于第二测试场景中，其中：

第二封闭边界用于实现内部封闭环境与外部开放环境间的隔音，以及消除内部封闭环境可能生成的混响音；

多个第二声源和待测设备均位于第二封闭边界内，待测设备与每个第二声源之间的相对位置关系与预设待测位置与每个混响参数采集设备之间的相对位置关系一致，该位置关系的设置方式是为了能够实现对第一封闭边界的测试场景进行还原。

在本实施例中，待测设备可以为手机或者商场内的智能语音识别机器人等，本申请对此不做具体限定，相对位置关系一致可以理解为：在第一封闭边界中，以预设待测位置为坐标原点，建立空间直角坐标系，那么混响参数采集设备的空间坐标位置可以表示为(X,Y,Z)；在第二封闭边界中，以待测设备的位置为坐标原点，建立与前述空间直角坐标系相同的空间直角坐标系，则与混响参数采集设备相对应的第二声源的位置同样可以表示为(X,Y,Z)，其中，X，Y，Z分别代表于空间直角坐标系x轴、y轴和z轴上的坐标。

步骤S5，通过第二声源发出的拟真混响测试音频，待测设备根据接收到的拟真混响测试音频进行语音识别并生成相应的语音识别结果。

在本实施例中，语音识别结果可以包括具体的文本信息。

步骤S6，判断语音识别结果与预设测试指令是否相一致，并对判断结果进行记录。

在本实施例中，将语音识别结果的具体的文本信息和预设测试指令的文本信息进行对比，若一致，则标记为正常音频并在测试日志中记录正确识别；若不一致，则标记为异常音频并在测试日志中记录串词或未识别。

在本实施例中，可以实现同一个第二封闭边界对不同测试场景的模拟，可以理解为，在对多个不同真实场景进行模拟的过程中，在本申请所涉及的同一第二封闭边界内，可以通过调整不同真实场景所对应的不同混响参数来实现不同真实场景的还原。具体地，针对某个特定的第二声源，其发出的拟真混响测试音频可以是由不同的脉冲文件和第二测试音频组合生成的，不同的脉冲文件分别对应不同的真实场景，从而实现在同一个第二封闭边界内对不同测试场景进行模拟。

在一种可选的实施方式中，第二声源发出的拟真混响测试音频，根据相对位置关系一致的混响参数采集设备生成的混响参数和第二测试音频生成。

在本实施例中，采用步骤S4中描述的相对位置关系一致的混响参数实现拟真混响测试音频的生成。

在一种可选的实施方式中，于步骤S2中，混响采集包括：

步骤S21，第一声源于第一测试音频集合中，依次序提取一个第一测试音频进行采集，第一测试音频集合中包括多个频率不同的第一测试音频，每个第一测试音频具有相同的第一持续时间；

步骤S22，混响参数采集设备对采集方向上接收到的音频信号进行持续采集，获取音频信号的第二持续时间以及频率变化情况；

直至每个混响参数采集设备均无法采集到音频信号的情况时，再重复执行步骤S21至步骤S22，直至第一声源对第一测试音频集合中的全部第一测试音频完成播放。

在本实施例中，第一测试音频集合采用100Hz为播放精度，所谓的100Hz为播放精度即第一测试音频集合中的各个音频间的频率差为100Hz的自然数倍，第一测试音频集合包括100Hz～20KHz频率的声音，每一个频率声音的第一持续时间可以为4s，而且在采集时，还会在一个频率的混响完全消除后预留空白时间，用于记录环境中的混响参数，记录完成后进行另一个频率的采集，在本实施例中，对1000Hz和1100Hz频率的音频进行采集，图3示出了1000Hz频率下的混响特征曲线图，图4示出了1100Hz频率下的混响特征曲线图，其中混响特征曲线由混响持续时间和频率衰变曲线构成。具体地，在图3和图4所示出的混响特征曲线中，其所处的坐标系的横向坐标代表时间，其单位为秒，纵向坐标代表频率，其单位为赫兹。于图3和图4所示的混响特征曲线中，1000Hz频率和1100Hz频率下第一测试音频的第一持续时间均为4s。可以理解的是，于图3中上部所示的频率曲线为1000Hz频率下第一测试音频的频率曲线，下部所示的频率曲线为混响参数采集设备采集到的频率曲线，位于矩形框300内的频率曲线为混响持续时间内的频率衰变曲线，即混响特征曲线。同样地，于图4中，上部所示的频率曲线为1100Hz下第一测试音频的频率曲线，下部所示的频率曲线为混响参数采集设备采集到的频率曲线，位于矩形框400内的频率曲线为混响持续时间内的频率衰变曲线。

在一种可选的实施方式中，混响参数包括每个第一测试音频的频率所对应的混响持续时间和频率衰变曲线；

混响持续时间包括对应频率下第二持续时间和第一持续时间的差值；

频率衰变曲线包括对应频率下混响持续时间内的频率变化情况。

在本实施例中，混响持续时间的计算公式为T₀＝T₁-T₂

其中，T₀为混响持续时间，T₁为第二持续时间，T₂为第一持续时间，基于上述混响时间的定义，可以毫无疑问的得出该混响持续时间的计算公式。

在一种可选的实施方式中，于步骤S3中，拟真混响测试音频的生成包括：

步骤S31，对第二测试音频进行特征段提取，并获取特征段的平均频率；

步骤S32，根据平均频率，选择对应的混响参数，并基于选择的混响参数生成混响叠加音频；

步骤S33，将混响叠加音频与第二测试音频进行叠加，以生成拟真混响测试音频。

在本实施例中，步骤S31中第二测试音频的特征段为去除第二测试音频中频率的峰值区域和低谷区域的段落中截取的相应的时间的频率段。于步骤S32中，基于选择的混响参数生成混响叠加音频的具体实现，可以理解为混响参数和第二测试音频通过卷积计算从而生成混响叠加音频，本领域技术人员可以采用本技术领域的常规计算方法对混响参数与第二测试音频进行卷积计算，在此不做限定。

在一种可选的实施方式中，第二测试音频还包括代表预设测试指令的环境噪音语料，环境噪音语料用于为语音识别测试提供真实的噪音环境的模拟，通过环境噪音语料的加入，能够进一步对待测设备的语音性能进行更好的测试。

在本实施例中，环境噪音语料可以为人发出的声音还可以是其它电子设备发出的声音，即环境噪音语料基本上采用的是现实环境中可能出现的声音。

在一种可选的实施方式中，拟真混响测试音频包括测试指令混响音频和环境噪音混响音频；

测试指令混响音频根据测试指令语料和混响参数生成；

环境噪音混响音频根据环境噪音语料和混响参数生成。

在一种可选的实施方式中，多个第二声源中的至少一部分发出测试指令混响音频；

多个第二声源中的至少一部分对环境噪音混响音频进行播放。

在一种可选的实施方式中，发出测试指令混响音频的第二声源与待测设备处于同一水平面上。因为现实生活中，声源位置一般和待测设备是在同一个水平面上的，因此在模拟测试时也如此设置，更加接近真实环境，得出的结果也更加具有现实意义。

参见图2，本实施例还提供一种基于混响音模拟的语音识别测试系统，应用于上述的语音识别测试方法中，包括：

第一测试场景，用于提供混响参数采集环境，包括至少一个第一声源、第一封闭边界以及多个混响采集设备3，其中：

第一声源位于第一封闭边界内，用于发出第一测试音频，第一测试音频经第一封闭边界的反射形成混响音；

多个混响参数采集设备3，置于第一封闭边界内，并于三维空间中环绕待测位置放置，用于根据采集方向上接收到的混响音执行混响采集，并生成对应的混响参数；

音频生成器4，用于根据混响参数和第二测试音频生成拟真混响测试音频，第二测试音频包括代表预设测试指令的测试指令语料；

第二测试场景，用于为待测设备8提供语音识别测试环境，第二测试场景包括第二封闭边界9和多个第二声源，待测设备置8于第二测试场景中，其中：

第二封闭边界用于实现内部封闭环境与外部开放环境间的隔音，以及消除内部封闭环境可能生成的混响音；

多个第二声源和待测设备8均置于第二封闭边界9内，且待测设备8与每个第二声源之间的相对位置关系与待测位置8与每个混响参数采集设备3之间的相对位置关系一致，用于播放拟真混响测试音频。

在本实施例中，第一声源和第二声源均可以采用高保真音响。

在本实施例中，第二封闭边界9采用箱体，箱体能够隔绝外部声音的同时，还能对声音完全吸收，避免了混响的生成。箱体包括壳体，壳体包括六个面板，六个面板采用2-3mm的冷轧钢板，经过冲压、焊接、酸洗、喷涂制作成壳体，六个面板中的其中一个面板是可以进行启闭的，壳体内壁固定3—6层的阻尼、隔声、吸音材料制做而成的复合隔声面板，实现对声音的完全吸收。

待测设备5用于对接收到的拟真混响测试音频进行语音识别并生成相应的语音识别结果。

处理器7，判断语音识别结果与预设测试指令是否相一致，并对判断结果进行记录。

在本实施例中，于具体实现过程中，上述系统还可以包括如图2所示的输入接口1，设置在筛选器2上，用于导入指定的词条；

筛选器2，用于将导入的指定词条在测试库语料中筛选出指定的词条作为测试指令语料；

存储器6，用于自动保存处理器输出的测试日志文件及异常音频文件。

通过上述实施例，可以实现如下效果：

1、本发明提供的真实环境混响音频生成方法、语音性能测试方法及系统，采用对真实混响进行模拟的方法，代替了传统的在真实环境中进行测试的方法，不再受场地制约，而且操作更加方便快捷。

2、本发明提供的真实环境混响音频生成方法、语音性能测试方法及系统，在同一个第二封闭边界内能够实现对多个不同场景的模拟，从而实现不同混响情况下的模拟测试，提高了其适用范围，而且完成一个场景的测试后也不需要转移到另一个测试环境中进行另一个场景的测试，整体的测试效率也得到了很大的提升。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

15页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种测试方法和系统

基于混响模拟的语音识别测试方法及系统

相关技术

网友询问留言