在空间区域内进行音区定位方法和装置、设备和介质

文档序号：193355 发布日期：2021-11-02 浏览：21次 >En<

阅读说明：本技术 在空间区域内进行音区定位方法和装置、设备和介质 (Method and apparatus for performing sound zone localization in spatial region, device and medium ) 是由胡玉祥朱长宝余凯牛建伟于 2021-08-03 设计创作，主要内容包括：本公开实施例公开了一种在空间区域内进行音区定位的方法和装置、设备和介质,其中,方法包括：确定在设定空间区域内从至少一个视角各自采集到的图像；基于所述至少一个视角各自采集到的图像,确定所述设定空间区域内的人脸信息；确定所述设定空间区域内采集到的至少一路混合语音信号；对所述至少一路混合语音信号进行语音分离,获得至少一路语音分离信号；基于所述至少一路语音分离信号对应的第一唤醒信息以及所述人脸信息,确定所述第一唤醒信息对应的唤醒信号在所述设定空间区域内的声源位置。本公开实施例可以提高定位效率和准确度,提高了对同侧前后排声源的区分定位准确率。(The embodiment of the disclosure discloses a method, a device, equipment and a medium for positioning a sound zone in a space region, wherein the method comprises the following steps: determining images respectively collected from at least one view angle in a set space region; determining face information in the set spatial region based on the images respectively acquired from the at least one view angle; determining at least one path of mixed voice signals collected in the set space region; performing voice separation on the at least one path of mixed voice signal to obtain at least one path of voice separation signal; and determining the sound source position of the wake-up signal corresponding to the first wake-up information in the set spatial region based on the first wake-up information corresponding to the at least one voice separation signal and the face information. The embodiment of the disclosure can improve the positioning efficiency and accuracy, and improve the distinguishing and positioning accuracy of the front and rear sound sources on the same side.)

技术领域

本公开涉及声源定位技术，尤其是一种在空间区域内进行音区定位的方法和装置、设备和介质。

背景技术

随着智能语音交互技术不断发展，越来越多的智能交互设备应运而生。例如，智能电视、智能音箱、智能家居、智能机器人、车载智能交互设备等等。通过唤醒词唤醒交互设备，人们可以与智能交互设备进行语音交互，指示智能交互设备完成诸如音乐播放、天气播报等操作。

智能交互设备被唤醒后，可以根据麦克风拾取到的语音信号确定唤醒词的方位信息，并根据唤醒词方位对语音进行定向拾取，以减少噪声干扰。但是，例如，在车载智能交互场景中，通常采用安装在车内顶灯或车机位置的两麦集中式麦克风阵列接收声音信号，相关技术中所采用的声源定位算法很难区分车内同一侧前后排的声源，仅能区分主副驾驶方向。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种在空间区域内进行音区定位的方法和装置、设备和介质。

根据本公开实施例的一个方面，提供了一种在空间区域内进行音区定位的方法，包括：

确定在设定空间区域内从至少一个视角各自采集到的图像；

基于所述至少一个视角各自采集到的图像，确定所述设定空间区域内的人脸信息；

确定所述设定空间区域内采集到的至少一路混合语音信号；

对所述至少一路混合语音信号进行语音分离，获得至少一路语音分离信号；

基于所述至少一路语音分离信号对应的第一唤醒信息以及所述人脸信息，确定所述第一唤醒信息对应的唤醒信号在所述设定空间区域内的声源位置。

根据本公开实施例的另一方面，提供了一种在空间区域内进行音区定位的装置，包括：

图像采集模块，用于确定在设定空间区域内从至少一个视角各自采集到的图像；

人脸信息确定模块，用于基于所述图像采集模块采集到的至少一个视角各自采集到的图像，确定所述设定空间区域内的人脸信息；

语音采集模块，用于确定所述设定空间区域内采集到的至少一路混合语音信号；

语音分离模块，用于对所述语音采集模块采集到的至少一路混合语音信号进行语音分离，获得至少一路语音分离信号；

位置定位模块，用于基于所述语音分离模块获得的至少一路语音分离信号对应的第一唤醒信息以及所述人脸信息确定模块确定的人脸信息，确定所述第一唤醒信息对应的唤醒信号在所述设定空间区域内的声源位置。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的在空间区域内进行音区定位的方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的在空间区域内进行音区定位的方法。

基于本公开上述实施例提供的一种在空间区域内进行音区定位的方法和装置、设备和介质，利用人脸识别确定了可能发声的至少一个人脸信息，通过结合唤醒信息和人脸信息，提高定位效率和准确度，提高了对同侧前后排声源的区分定位准确率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1-a是本公开一示例性实施例提供的音区定位系统的一个可选结构示意图。

图1-b是本公开一示例性实施例提供的音区定位系统中一个可选的麦克风位置关系示意图。

图1-c是本公开一示例性实施例提供的音区定位系统中一个可选的麦克风获得声音信号示意图。

图2是本公开一示例性实施例提供的在空间区域内进行音区定位的方法的流程示意图。

图3是本公开图2所示的实施例中步骤202的一个流程示意图。

图4是本公开图2所示的实施例中步骤204的一个流程示意图。

图5是本公开图2所示的实施例中步骤205的一个流程示意图。

图6是本公开另一示例性实施例提供的在空间区域内进行音区定位的方法的流程示意图。

图7是本公开图6所示的实施例中步骤205的一个流程示意图。

图8是本公开图7所示的实施例中步骤2056的一个流程示意图。

图9是本公开一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。

图10是本公开另一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。

图11是本公开又一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。

图12是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，目前车载领域，大多使用两麦集中式麦克风阵列，至少存在以下问题：无法实现两麦四音区控制。

示例性系统

图1-a是本公开一示例性实施例提供的音区定位系统的一个可选结构示意图。如图1所示，本实施例的空间区域为车辆内，本实施例将车内划分为4个音区，分别对应主驾(1L)、副驾(1R)、主驾后(2L)和副驾后(2R)。在车辆内的音区定位系统可包括但不限于：两个摄像设备和两个麦克风，一个摄像设备位于车内车顶，可称为摄像头A；另一个摄像设备位于车内A柱(即前挡风玻璃边缘靠近主驾位置处)，可称为摄像头B；两个麦克风(C和D)位于车顶摄像头A两侧；两个麦克风的位置关系可以如图1-b所示的可选示例所示；而每个麦克风获得声音信号的过程可如图1-c所示，声波通过一定角度到达振膜，使振膜产生振动，并通过信号转换设备将振动信号转换为电信号，以获得麦克风采集的原始语音信号，当一个麦克风同时采集到多个声源发出的声音信号时，该原始语音信号为混合语音信号，每个麦克风获得一路混合语音信号。

在如图1-a所示的实施例中，通过摄像头A采集的图像，识别副驾人脸和唇动以及主驾后和副驾后人脸；通过摄像头B采集的图像，识别主驾的人脸和唇动。

本实施例实现了结合图像多模信息的两麦四音区定位算法，利用语音唤醒时间段麦克风阵列接收到的信号，结合车内乘客的人脸和唇动信息，可以做到前后排说话人的有效区分，实现两麦四音区控制；在车载应用场景下，可以实现对全车不同乘客语音命令的精准响应，获取唤醒词或命令词对应声源的位置，例如，乘客说“打开车窗”，车自动打开离该乘客最近的车窗。

示例性方法

图2是本公开一示例性实施例提供的在空间区域内进行音区定位的方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，确定在设定空间区域内从至少一个视角各自采集到的图像。

其中，设定空间区域可以是如车辆内、房间内等有限的空间区域内；至少一个视角可以是从至少一个方向对该设定空间区域中的人或物体进行图像采集，例如，如图1-a所示的对于车辆内通过设置在车内车顶和车内A柱的摄像头A和摄像头B实现从两个视角采集车内人员的图像。

步骤202，基于至少一个视角各自采集到的图像，确定设定空间区域内的人脸信息。

在一实施例中，至少一个视角采集到的图像中包括的人脸信息可能相同或不同，本实施例通过至少一个视角实现对设定空间区域内的更全面的人脸信息获取，避免了因角度受限而遗漏人脸信息的问题；例如，如图1-a所示的实施例中，通过摄像头A采集的图像，识别副驾的人脸和唇动信息以及主驾后和副驾后人脸信息；通过摄像头B采集的图像，识别主驾的人脸和唇动信息。

步骤203，确定设定空间区域内采集到的至少一路混合语音信号。

可选地，可利用至少一个麦克风采集至少一路混合语音信号，其中，每个麦克风采集混合语音信号的过程可如图1-c所示；当麦克风有多个时，麦克风的位置关系可以如图1-b所示的可选示例所示。

步骤204，对至少一路混合语音信号进行语音分离，获得至少一路语音分离信号。

可选地，可通过现有技术中的任意一种语音分离方法对混合语音信号进行语音分离，例如，盲源分离算法等，本实施例不限制具体采用的语音分离方法。

步骤205，基于至少一路语音分离信号对应的第一唤醒信息以及人脸信息，确定第一唤醒信息对应的唤醒信号在设定空间区域内的声源位置。

本实施例中，通过对至少一路语音分离信号进行唤醒识别，可获得第一唤醒信息，可选地，第一唤醒信息可以表示唤醒或未唤醒预设设备，当存在唤醒预设设备的唤醒信号，本实施例结合唤醒信息和人脸信息，实现音区定位，确定唤醒信号对应的声源位置。

本公开上述实施例提供的一种在空间区域内进行音区定位的方法，利用人脸识别确定了可能发声的至少一个人脸信息，通过结合唤醒信息、唇动和人脸信息，提高定位效率和准确度，提高了对同侧前后排声源的区分定位准确率。

如图3所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，对基于至少一个视角各自采集到的图像分别执行人脸识别，得到至少一组识别信息。

可选地，可适用人脸特征提取方法对至少一个图像分别执行人脸识别，例如，利用人脸识别网络技术手段等实现人脸识别；通过人脸识别为至少一个图像中的每个图像确定一组识别信息，每组识别信息中可以包括至少一个人脸。

步骤2022，基于至少一组识别信息，确定设定空间区域内的人脸信息。

本实施例中，由于是通过至少一个视角对同一设定空间区域内进行图像采集，因此可能存在相同人脸在不同视角下被采集，即在至少一组识别信息中存在重复的识别信息(对应同一个人)，本实施例为了避免对同一人脸信息重复处理，可通过相似度识别等技术手段，将同一人对应的识别信息进行合并处理，使得到的人脸信息中不存在重复人脸，提高了声源定位的准确性。

如图4所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，利用语音分离算法对至少一路混合语音信号进行语音分离，得到至少一路独立音频信号。

本实施例中，由于设定空间区域内在同一时间可能存在多人发出声音，因此，每路混合语音信号中都可能包括多路音频信号，可选地，使用语音分离算法处理至少一路混合语音信号，可得到分离后的独立音频信号，如盲源分离算法等方法。

步骤2042，从至少一路独立音频信号中确定至少一路语音分离信号。

本实施例通过语音分离对每个人发出的语音信号实现了分离，有利于基于分离后的语音信号确定唤醒信息，进而提高了定位唤醒信号对应的声源位置的准确性；例如，如图1-b所示的由两个麦克风组成的两麦阵列接收到两路混合语音信号，通过语音分离，可以获得两个分离后的语音信号audio1和audio2，其中audio1和audio2可以为车内任意一个说话人发出的语音信号；本实施例中的语音分离算法可采用现有技术中任意一种可实现语音分离的方法，例如，正定场景下，即麦克风数目与声源数目相同时，对N路混合语音信号，使用语音分离算法进行分离，获得N路分离信号，N指的是麦克风数目。

如图5所示，在上述图2所示实施例的基础上，步骤205可包括如下步骤：

步骤2051，利用第一神经网络对至少一路语音分离信号进行处理，得到至少一路语音信号对应的至少一个第一唤醒信息。

其中，每路语音信号对应一个第一唤醒信息，每个第一唤醒信息表示唤醒或未唤醒预设设备。

可选地，在利用第一神经网络进行处理之前，还可以利用已知唤醒结果的音频信号对该第一神经网络进行训练，使经过训练的第一神经网络可以提高基于每路语音信号获得唤醒信息的准确率；可选地，预设设备可以包括例如，空调，车机，音响，显示屏等等任意可以语音控制的设备。

步骤2052，基于人脸信息，确定设定空间区域内的至少一个发声位置。

本实施例中，通过人脸信息可确定设定空间区域内人处于哪些位置，由于设备唤醒只能由人来实现，因此，将人脸信息确定的人所在的位置作为发声位置。例如，在车载应用场景下，使用人脸提取算法，处理车内两个摄像头的图像信息，可以获得车内乘客的人脸信息：主驾人脸信息(face_1L)、副驾人脸信息(face_1R)、主驾后人脸信息(face_2L)和副驾后(face_2R)，基于4个座位的人脸信息，可以确定最终的定位声源位置，如果车内某个位置没有检测到人脸信息，则这个位置不会进入最终的定位选择范围。

步骤2053，响应于至少一个第一唤醒信息中存在唤醒预设设备的第一唤醒结果。

本实施例中，只有当第一唤醒信息实现了唤醒预设设备时，才需要对唤醒信号进行定位，可选地，还可以包括，响应于至少一个第一唤醒信息中不存在唤醒预设设备的第一唤醒结果，不执行音区定位。

步骤2054，利用第二神经网络对至少一路混合语音信号和唤醒预设设备的第一唤醒信息进行处理，在至少一个发声位置中确定声源位置。

其中，在利用第二神经网络确定声源位置之前，还可以包括基于已知声源位置的样本语音信号和样本语音信号对应的唤醒信息对该第二神经网络进行训练，以提高第二神经网络确定声源位置的准确性；另外，除了利用第二神经网络实现声源定位，还可以基于常用的信号处理定位算法实现声源位置的确定，例如GCC-PHAT定位算法等。

本实施例通过在至少一个发声位置中确定一个发声位置作为唤醒信号对应的声源位置，缩小了声源定位的范围，提高了声源定位的效率和准确率；在一个可选示例中，将语音分离信号audio1和语音分离信号audio2输入第一神经网络，获得单模语音唤醒标记信息swkp1和swkp2，输出唤醒结果，以1标识唤醒，以0标识未唤醒，例如，swkp1返回值为1，表示预设设备被audio1唤醒，然后下一步，swkp1、mic1以及mic2输入音区定位模块执行声源定位。

如图6所示，在上述图2所示实施例的基础上，在执行步骤205之前还可以包括：

步骤601，利用第三神经网络对至少一个视角中的第一视角采集的第一图像进行唇动识别，确定第一视角采集的第一图像中的至少一个唇动信息。

可选地，第三神经网络可以是任意可以实现唇部是否在动的识别网络，输出的唇动信息可以包括唇部特征向量，具体可以包括唇部特征点位置坐标以及唇动概率；通过唇动概率可确定是否唇动的结果，例如，通过唇动概率与预设概率进行比较，当大于预设概率时输出1，小于等于预设概率时输出0，其中，1标识唇动，0标识唇未动；其中，预设概率可根据应用场景进行设置。

步骤602，利用第四神经网络基于至少一个唇动信息和至少一路语音分离信号，确定第二唤醒信息。

其中，第二唤醒信息表示第一图像中的人脸对应的语音分离信号唤醒或未唤醒预设设备。

本实施例，第四神经网络利用唇动信息和语音分类信号进行语音唤醒，当语音信息和图像信息匹配时，可以提高低信噪比场景的唤醒率，当语音信息和图像信息不匹配时，系统无法唤醒；在一个可选示例中，当应用场景为车辆内声源定位时，使用唇动提取算法，处理车内两个摄像头的图像信息，可以获得主驾的唇动信息lip1和副驾的唇动信息lip2；使用语音分离算法，处理两麦阵列接收到的语音信号，可以获得两个分离后的语音信号audio1和audio2，其中audio1和audio2可以为车内任意一个说话人发出的语音信号；将主副驾的唇动信息lip1和lip2，以及分离后的两路语音信号audio1和audio2，送入多模语音唤醒模块(第四神经网络)，可以获得主副驾的第二唤醒信息mwkp1和mwkp2。

如图7所示，在上述图6所示实施例的基础上，步骤205可以包括：

步骤2055，基于人脸信息，确定设定空间区域内的至少一个发声位置。

该步骤的实现以及效果可参照上述图5所示实施例中的步骤2052，在此不再赘述。

步骤2056，基于第一唤醒信息、第二唤醒信息、至少一个唇动信息和至少一路混合语音信号，利用预设定位规则从至少一个发声位置中确定声源位置。

可选地，可基于波达方向定位技术(DOA)等常用的信号处理定位算法定位声源。

本实施例中，结合了基于唇动信息确定的第二唤醒信息确定声源位置，提高了对应唇动信息的人脸对应位置的声源定位准确率，例如，在车载应用场景下，使用唇动提取算法，处理车内两个摄像头的图像信息，可以获得主驾的唇动信息lip_1L和副驾的唇动信息lip_1R；使用语音分离算法(如盲源分离)，处理两麦阵列接收到的语音信号，可以获得两个分离后的语音信号audio1和audio2，其中audio1和audio2可以为车内任意一个说话人发出的语音信号。基于主副驾的唇动信息lip_1L和lip_1R，以及分离后的两路语音信号audio1和audio2，可以获得主驾的多模语音唤醒标记信息mwkp_1L和副驾的多模语音唤醒标记信息mwkp_1R。利用唇动信息和语音信号进行语音唤醒，当语音信息和图像信息匹配时，可以提高低信噪比场景的唤醒率，当语音信息和图像信息不匹配时，无法唤醒预设设备。

如图8所示，在上述图7所示实施例的基础上，步骤2056可以包括：

步骤801，从至少一个发声位置中确定第一图像对应的至少一个第一发声位置。

本实施例中，第一发声位置为对应唇动信息的人所在的位置，例如，设定空间内的前排位置，如在车载应用场景中，可如图1-a所示实施例，第一发声位置为主驾驶位1L和副驾驶位1R。

步骤802，判断至少一个发声位置中是否包括第一发声位置，如果是，执行步骤803；否则，执行步骤804。

步骤803，基于第二唤醒信息和至少一个唇动信息从至少一个第一发声位置中确定至少一个声源位置，和/或，利用第五神经网络对至少一路混合语音信号和第一唤醒信息进行处理，从除了第一发声位置的至少一个第二发声位置中确定至少一个声源位置。

本实施例中，在同一时间可存在多个唤醒语音，例如，在第一发声位置中存在声源位置的同时在第二发声位置中还存在至少一个声源位置，此时，除了需要对第一发声位置的信息进行识别，还需要对第二发声位置对应的第一唤醒信息进行处理。

可选地，基于第二唤醒信息和至少一个唇动信息从至少一个第一发声位置中确定至少一个声源位置，包括：

对于至少一个第一发声位置中的每个第一发声位置，响应于第一发声位置对应的第二唤醒信息为唤醒预设设备，或，响应于第一发声位置对应的唇动信息为唇动；确定第一发声位置为声源位置。

在本实施中，当可以获得唇动信息的第一发声位置存在语音信号时，对基于该语音信号获得的第二唤醒信息进行识别，当该第二唤醒信息可以唤醒预设设备，说明对应该第二唤醒信息的第一发声位置为声源位置；或者，可以基于唇动信息确定唇部存在动作(发出语音需要唇动)，即可确定该第一发声位置为声源位置。

步骤804，利用第五神经网络对至少一路混合语音信号和第一唤醒信息进行处理，从至少一个第二发声位置中确定至少一个声源位置。

本实施例中，第二发声位置为不具备唇动信息，但具备人脸信息的位置，对于这种不具有唇动信息的发生位置，本实施例利用神经网络进行声源位置确定利用第五神经网络或基于波达方向定位技术(DOA)等常用的信号处理定位算法实现声源定位等。例如，当在车载应用场景下，具体的声源位置定位规则如下表1所示：

表1

其中，本实施例将车内划分为4个音区，分别对应主驾、副驾、主驾后和副驾后；mwkp1和mwkp2分别表示主驾位置对应的第二唤醒信息和副驾对应的第二唤醒信息，1表示唤醒预设设备，0表示未唤醒预设设备。

本公开实施例提供的任一种在空间区域内进行音区定位的方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种在空间区域内进行音区定位的方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种在空间区域内进行音区定位的方法。下文不再赘述。

示例性装置

图9是本公开一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。如图9所示，本实施例提供的装置包括：

图像采集模块91，用于确定在设定空间区域内从至少一个视角各自采集到的图像。

人脸信息确定模块92，用于基于图像采集模块91采集到的至少一个视角各自采集到的图像，确定设定空间区域内的人脸信息。

语音采集模块93，用于确定设定空间区域内采集到的至少一路混合语音信号。

语音分离模块94，用于对语音采集模块93采集到的至少一路混合语音信号进行语音分离，获得至少一路语音分离信号。

位置定位模块95，用于基于语音分离模块94获得的至少一路语音分离信号对应的第一唤醒信息以及人脸信息确定模块92确定的人脸信息，确定第一唤醒信息对应的唤醒信号在设定空间区域内的声源位置。

本公开上述实施例提供的一种在空间区域内进行音区定位的装置，利用人脸识别确定了可能发声的至少一个人脸信息，通过结合唤醒信息和人脸信息，提高定位效率和准确度，提高了对同侧前后排声源的区分定位准确率。

图10是本公开另一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。如图10所示，本实施例提供的装置中，人脸信息确定模块92，具体用于对基于至少一个视角各自采集到的图像分别执行人脸识别，得到至少一组识别信息；基于至少一组识别信息，确定设定空间区域内的人脸信息。

语音分离模块94，具体用于利用语音分离算法对所述至少一路混合语音信号进行语音分离，得到至少一路独立音频信号；从所述至少一路独立音频信号中确定至少一路语音分离信号。

位置定位模块95，包括：

单模语音唤醒单元951，用于利用第一神经网络对至少一路语音分离信号进行处理，得到至少一路语音信号对应的至少一个第一唤醒信息；其中，每路语音信号对应一个第一唤醒信息，每个所述第一唤醒信息表示唤醒或未唤醒预设设备。

第一位置确定单元952，用于基于人脸信息，确定设定空间区域内的至少一个发声位置。

第一声源定位单元953，用于响应于至少一个第一唤醒信息中存在唤醒预设设备的第一唤醒结果；利用第二神经网络对至少一路混合语音信号和唤醒预设设备的第一唤醒信息进行处理，在至少一个发声位置中确定声源位置。

图11是本公开又一示例性实施例提供的在空间区域内进行音区定位的装置的结构示意图。如图11所示，本实施例提供的装置还包括：

唇动识别模块111，利用第三神经网络对至少一个视角中的第一视角采集的第一图像进行唇动识别，确定第一视角采集的第一图像中的至少一个唇动信息；

唤醒识别模块112，用于利用第四神经网络基于至少一个唇动信息和至少一路语音分离信号，确定第二唤醒信息；其中，第二唤醒信息表示第一图像中的人脸对应的语音分离信号唤醒或未唤醒预设设备。

位置定位模块95，包括：

第二位置确定单元954，用于基于人脸信息，确定设定空间区域内的至少一个发声位置；

第二声源定位单元955，用于基于第一唤醒信息、第二唤醒信息、至少一个唇动信息和至少一路混合语音信号，利用预设定位规则从至少一个发声位置中确定声源位置。

可选地，第二声源定位单元955，具体用于从至少一个发声位置中确定第一图像对应的至少一个第一发声位置；响应于至少一个发声位置中包括第一发声位置，基于第二唤醒信息和至少一个唇动信息从至少一个第一发声位置中确定至少一个声源位置，和/或，利用第五神经网络对至少一路混合语音信号和第一唤醒信息进行处理，从除了第一发声位置的至少一个第二发声位置中确定至少一个声源位置；响应于至少一个发声位置中不包括第一发声位置，利用第五神经网络对至少一路混合语音信号和第一唤醒信息进行处理，从至少一个第二发声位置中确定至少一个声源位置。

可选地，第二声源定位单元955在基于第二唤醒信息和至少一个唇动信息从至少一个第一发声位置中确定至少一个声源位置时，用于对于至少一个第一发声位置中的每个第一发声位置，响应于第一发声位置对应的第二唤醒信息为唤醒预设设备，或，响应于第一发声位置对应的唇动信息为唇动；确定第一发声位置为声源位置。

示例性电子设备

下面，参考图12来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图12图示了根据本公开实施例的电子设备的框图。

如图12所示，电子设备120包括一个或多个处理器121和存储器122。

处理器121可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备120中的其他组件以执行期望的功能。

存储器122可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器121可以运行所述程序指令，以实现上文所述的本公开的各个实施例的在空间区域内进行音区定位的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备120还可以包括：输入装置123和输出装置124，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置123可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置123可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置123还可以包括例如键盘、鼠标等等。

该输出装置124可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置124可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备120中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备120还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的在空间区域内进行音区定位的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的在空间区域内进行音区定位的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：机器交互方法和装置

在空间区域内进行音区定位方法和装置、设备和介质

相关技术

网友询问留言