应用麦克风跟踪说话人的方法、装置及计算设备

文档序号：1190978 发布日期：2020-08-28 浏览：15次 >En<

阅读说明：本技术 应用麦克风跟踪说话人的方法、装置及计算设备 (Method and device for tracking speaker by using microphone and computing equipment ) 是由李宏浩于 2020-04-24 设计创作，主要内容包括：本发明实施例涉及通信技术领域,公开了一种应用麦克风跟踪说话人的方法、装置及计算设备,方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,本发明实施例能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。(The embodiment of the invention relates to the technical field of communication, and discloses a method, a device and computing equipment for tracking a speaker by using a microphone, wherein the method comprises the following steps: recognizing the speaker through sonar imaging; acquiring mouth coordinates of the speaker and a distance from a microphone to the mouth coordinates; the microphone is controlled to be opposite to the mouth coordinate of the speaker in a first preset range in real time through the mechanical arm, and the speaker is dynamically tracked.)

技术领域

本发明实施例涉及通信技术领域，具体涉及一种应用麦克风跟踪说话人的方法、装置及计算设备。

背景技术

目前语音识别需要前端麦克风采集数据进行处理，但是在复杂环境中，麦克风采集的有效语音数据存在误采集和失真，不同角度、不通距离，说话人的有效语音数据采集效果差距明显。

现有技术中，传统麦克风的位置是固定不变的，而各个角度和距离调试开发都需要考虑全面，由此带来的开发成本和时间成本非常高，而且为了兼容各个角度语音采集识别，可能会牺牲掉更多性能或者算力、或者识别效果，最终效果并不是研发过程中最理想的状态。

发明内容

鉴于上述问题，本发明实施例提供了一种应用麦克风跟踪说话人的方法、装置及计算设备，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种应用麦克风跟踪说话人的方法，所述方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

在一种可选的方式中，所述通过声呐成像识别说话人，包括：在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；所述获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离，包括：结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。

在一种可选的方式中，所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。

在一种可选的方式中，所述方法还包括：获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；所述获取所述麦克风采集的所述说话人的语音数据，包括：获取多个所述麦克风同时采集的所述说话人的语音数据。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；所述获取所述麦克风采集的所述说话人的语音数据，包括：获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

根据本发明实施例的另一方面，提供了一种应用麦克风跟踪说话人的装置，所述应用麦克风跟踪说话人的装置包括：识别单元，通过声呐成像识别说话人；坐标获取单元，获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；动态跟踪单元，用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

根据本发明实施例的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。

根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。

本发明实施例的应用麦克风跟踪说话人的方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人，能够从声呐获取到说话人准确位置，通过动态调整麦克风与说话者之间的角度，使麦克风前端算法开发更集中于一定幅度角度的开发，能够节约开发时间，达到更好的语音效果。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图；

图2示出了本发明实施例提供的应用麦克风跟踪说话人的装置的结构示意图；

图3示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图，如图1所示，该应用麦克风跟踪说话人的方法应用于服务端，包括：

步骤S11：通过声呐成像识别说话人。

在本发明实施例中，使用声呐成像，对有效范围内进行不间断检测，频率为10到20HZ。声呐成像的具体实现与现有技术相同，在此不再赘述。

针对声呐成像得到的人像进行人像确认分析，具体地，在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人。如果不是人，则结束；如果是人，则进行后续的步骤。其中，第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内，再远距离则不做反馈。

步骤S12：获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离。

在本发明实施例中，在步骤S12中，结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。具体通过大数据得知等身高人类的嘴部坐标分布，得出嘴部坐标的合理取值，嘴部坐标记录为msg1，麦克风至所述嘴部坐标的距离记录为msg2。

步骤S13：通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

具体地，通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。通过嘴部坐标，通过通信电路启动机械臂动态跟踪麦克风，控制麦克风尽量朝向嘴部坐标msg1。其中通信电路可以是现有技术中能实现与机械臂进行通信的任一电路，在此不作详述。机械臂可以采用环形运转进行简单左右调节位置，也可以做万向支持精准定位到嘴部坐标，可以将麦克风集成到机械臂。

在本发明实施例中，不间断重复以上步骤，就能动态跟踪到说话人，将距离参数记录到麦克风，以后续回声消除(Acoustic Echo Cancellation，AEC)、降噪、以及能力转变做参数化处理。将上述应用麦克风跟踪说话人的方法集成到机器人设备上，可以用于动态跟踪行人，也可用于进行安防检测，语音识别，机器人跟踪服务等。其中机器人设备可以是扫地机器人、安防机器人等各类人形机器人。本发明实施例通过动态调整麦克风与说话者之间的角度，以及声呐获得的距离，使开发更集中于一定幅度角度的开发，能够节约开发时间。

将上述应用麦克风跟踪说话人的方法应用于语音识别时，进一步获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。通过以上动态定位嘴部坐标，以及距离确认，在做麦克风降噪、能量转变、以及AEC等功能时，就可以主要以正对麦克风做开发优化，能节约更多的开发时间，而且语音效果也能做到最优的状态。

在本发明实施例中，可以应用多个麦克风同时采集说话人的语音数据，例如应用2个或3个麦克风同时采集说话人的语音数据。具体地，通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；获取多个所述麦克风同时采集的所述说话人的语音数据。

在本发明实施例中，当有多人对话场景时，通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。优选地，应用6到8个麦克风，以便覆盖到6到8个人同时说话时的语音采集需求。对于有多人对话场景，固定麦克风不能有效跟踪多人，保证其语音识别在合理均衡范围，而本发明实施例通过动态麦克风跟踪，可以同时跟踪多个说话人，从而实现多人讯息接受处理，更符合人与人讨论交流场景。

图2示出了本发明实施例的应用麦克风跟踪说话人的装置的结构示意图，如图2所示，该应用麦克风跟踪说话人的装置包括：识别单元201、坐标获取单元202、动态跟踪单元203以及语音识别单元304。

识别单元201通过声呐成像识别说话人；坐标获取单元202获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；动态跟踪单元203用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

在一种可选的方式中，识别单元201用于：在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；坐标获取单元202用于结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。

在一种可选的方式中，所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。

在一种可选的方式中，动态跟踪单元203用于：通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。

在一种可选的方式中，语音识别单元304用于：获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。

在一种可选的方式中，动态跟踪单元203用于：通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；语音识别单元304用于：获取多个所述麦克风同时采集的所述说话人的语音数据。

在一种可选的方式中，动态跟踪单元203用于：通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；语音识别单元304用于：获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的应用麦克风跟踪说话人的方法。

可执行指令具体可以用于使得处理器执行以下操作：

通过声呐成像识别说话人；

获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；

通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。