语音交互过程中实时打断语音机器人的方法及设备

文档序号:1406977 发布日期:2020-03-06 浏览:19次 >En<

阅读说明:本技术 语音交互过程中实时打断语音机器人的方法及设备 (Method and equipment for interrupting voice robot in real time in voice interaction process ) 是由 沈宇亮 吴杰 金仁杰 邵鑫程 于 2019-10-23 设计创作,主要内容包括:本发明公开了语音交互过程中实时打断语音机器人的方法,包括:语音机器人与用户语音交互过程中,启动检测设备检测用户发出的呼入音频;判断用户呼入音频是否包括有效音频;如果是,检测设备响应于有效音频执行打断语音机器人的动作。(The invention discloses a method for interrupting a voice robot in real time in a voice interaction process, which comprises the following steps: in the voice interaction process of the voice robot and the user, starting detection equipment to detect incoming audio sent by the user; judging whether the incoming call audio of the user comprises effective audio or not; if so, the detection device performs an action to interrupt the voice robot in response to the valid audio.)

语音交互过程中实时打断语音机器人的方法及设备

技术领域

本发明涉及计算机领域,尤其涉及语音交互过程中实时打断语音机器人的方法及设备。

背景技术

随着计算机技术的不断发展,人工智能领域的不断深耕,以语音交互为目的的语音机器人逐渐进入大众视野当中。语音机器人的出现改变了现有电话业务的工作性质,目前语音机器人应用房产、教育、金融、旅游等行业中执行语音交互的功能,从而代替人工与用户进行语音交互。目前,已经使用的语音机器人均可以实现不同程度的与用户语音交互功能,但还局限于用户问一句、语音机器人答一句的机制,在语音机器人输出语音过程中、用户无法根据自身需求随时打断语音机器人正在发出的语音,使得用户不得不听完的语音机器人发出的一整段语音,导致语音机器人与用户语音交互呆板、无法形成人与人之间那样流畅的语音交互过程。

发明内容

本发明要解决的技术问题,在于提供语音交互过程中实时打断语音机器人的方法及设备,使得语音机器人与用户交互过程中语音机器人能够被用户实时打断,而不是必须等语音机器人当前语音段输出完毕后才能被打断,解决语音机器人与用户语音交互过程中用户无法在语音机器人输出语音过程中打断语音机器人的问题。

为实现上述目的,本发明采用下述技术方案:

第一方面,本发明提供语音交互过程中实时打断语音机器人的方法,包括:

语音机器人与用户语音交互过程中,启动检测设备检测用户发出的呼入音频;判断用户呼入音频是否包括有效音频;如果是,所述检测设备响应于所述有效音频执行打断语音机器人的动作。

在上述方案中,所述判断用户呼入音频是否包括有效音频的方法包括:

所述检测设备预先设置短时能量门限和短时过零率门限;

所述检测设备对呼入音频进行分帧,计算所述呼入音频每一帧的平均短时能量和平均短时过零率;

当所述呼入音频的帧段N的平均短时能量大于或等于所述短时能量门限或帧段N的平均短时过零率大于或等于短时过零率门限时,判断所述帧段N为呼入音频的语音段起点;

当所述呼入音频的帧段M的平均短时能量小于所述短时能量门限且帧段M的平均短时过零率小于短时过零率门限时,判断所述帧段M为呼入音频的语音段终点;

所述语音段时长不低于最短时间门限时,所述呼入音频为有效音频。

在上述方案中,所述判断用户呼入音频是否包括有效音频的方法还包括:所述语音段时长低于最短时间门限时,所述呼入音频为噪声。

在上述方案中,所述呼入音频每一帧的时长为20ms。

在上述方案中,所述打断语音机器人的动作包括:打断语音机器人当前正在输出的语音或禁止语音机器人输出语音。

第二方面,本发明提供一种检测设备,包括:

检测单元,所述检测单元用于启动检测设备检测所述呼入音频;

分帧单元,所述分帧单元用于对所述呼入音频进行分帧;

计算单元,所述计算单元用于计算所述呼入音频每一帧的平均短时能量和平均短时过零率;

判断单元,所述判断单元用于判断所述呼入音频语音段时长是否不低于最短时间门限;

执行单元,所述执行单元用于执行响应于所述有效音频执行打断语音机器人的动作。

第三方面,本发明提供一种检测设备,包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中任一项所述的方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音交互过程中实时打断语音机器人的程序,所述语音交互过程中实时打断语音机器人的程序被处理器执行时实现如第一方面任一项所述的方法的步骤。

本发明的有益效果是:语音机器人与用户语音交互过程中,提供一种实时打断语音机器人的方法及设备,当语音机器人开始输出语音时,启动检测设备检测用户的呼入音频,当用户的呼出音频是有效音频时,检测设备执行打断语音机器人的动作;

本发明有益效果一是通过用户的呼入音频判断是否执行打断语音机器人的动作,解决了现有技术方案通过识别打断关键词或关键字进行匹配才能打断语音机器人的技术问题,在无需对用户语音识别的条件下实现实时打断语音机器人的功能;

本发明有益效果二是对用户呼入音频进行分帧,计算呼入音频每一帧的平均短时能量和平均短时过零率,通过平均短时能量检测区分呼入音频中的浊音和静音,平均短时过零率从呼入音频中区分出静音和清音,结合平均短时能量和平均过零率判断呼入音频中是否包含有效语音段(包括清音和浊音),有效地克服了因为噪声环境导致有效语音段的漏检或虚检的问题;

本发明有益效果三是在检测出有效语音段后,对有效语音段的时长进行判断,排除一些突发性的噪声被误检测为有效音频的情况,使得对有效音频的判断精度得到提高。

附图说明

图1为本发明提供的语音交互过程中实时打断语音机器人方法的流程示意图;

图2为本发明提供的判断用户呼入音频是否包括有效音频的流程示意图;

图3为本发明提供的一种检测设备的结构示意图;

图4为本发明提供的一种检测设备的结构示意图。

具体实施方式

下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有语音机器人代替真人与用户交流的模式中,不论是语音机器人执行呼入或呼出功能,语音机器人一般均通过开场白语音进行功能、目的等自我介绍,亦或者是用户先发出问询语音后语音机器人作出语音回复以开启语音交互。目前,语音机器人发出开场白语音或识别用户语音后根据关键字或关键词的匹配结果发出回复语音或语音机器人回复自然语言的过程中,语音机器人需要完整地输出整段语音后才会停止,并开始针对用户在语音机器人输出语音时间内的呼入音频进行回复或由用户开始输出回复语音,在语音机器人输出语音过程中即使有用户比较想要了解的信息或者未听清的信息,用户也无法打断语音机器人正在输出的语音,造成语音机器人与用户语音交互过程呆板、不流畅。

现有打断语音机器人的方案一般都是识别用户的语音后进行关键词或关键字匹配,在语音交互开启、语音机器人输出语音过程中,一种情况是用户发出的语音中包括打断的关键词或关键字,关键词或关键字与预设的关键词包库匹配成功时才打断语音机器人的语音输出;另一种情况是用户发出的语音中不包括打断的关键词或关键字,此时关键词包库匹配失败,语音机器人自动忽略用户发出的语音并继续输出语音直到该语音输出完毕或语音机器人识别到用户发出包括打断的关键词或关键字语音为止。

因此,为了使用户与语音机器人语音交互过程中无需进行语音识别即可实现实时打断语音机器人的功能,且过滤环境噪声导致的用户有效语音段漏检或虚检的问题,同时排除一些突发性噪声造成的误检测情况,本发明实施例提供了语音交互过程中实时打断语音机器人的方法及设备。

以下结合附图,详细说明本发明中各实施例提供的技术方案。

第一方面,本发明实施例提供语音交互过程中实时打断语音机器人的方法,如附图1所示,包括:

步骤S101,语音机器人与用户进行语音交互;

针对步骤S101而言:语音机器人与用户进行语音交互,语音机器人与用户开启语音交互的一种方式是语音机器人通过预录入的呼叫号码向用户发起呼叫,另一种方式是用户通过固定的某个号码段向语音机器人发起呼叫,用户可以通过手机、固定座机、智能手表中的任意一种具有移动通信或固定通信功能产品与语音机器人进行语音交互,一般性地,语音机器人是由语音识别、文本转语音、计算机电话集成、交互语回应、软交换等模块组成的语音通信系统,语音识别将用户语音转换成语音机器人能够理解的文本或命令,语音机器人根据语音识别的结果输出合成语音或者人工预录入的语音,语音机器人与用户之间的信息交互(即语音交互)通过软交换模块实现,软交换通过软件设计实现基本的呼叫控制功能,语音机器人通过软交换实现呼叫控制、通过VOIP(网络电话)实现语音通信。

步骤S102,启动检测设备检测用户发出的呼入音频;

针对步骤S102而言:在语音交互过程开启后,启动检测设备检测用户发出的呼入音频,用户通过具有通信功能的手机、固定座机、智能手表中的任意一种终端与语音机器人进行语音交互时,一般性地,终端具有采集用户语音信息的MIC麦克风,用户与语音机器人语音交互过程开启时启动终端的MIC麦克风并保持语音交互全过程的开启,以实时采集用户发出的呼入音频,MIC麦克风采集用户的语音信号转换为电信号后同步发送至检测装置。

步骤S103,判断用户呼入音频是否包括有效音频;

针对步骤S103而言:通过MIC麦克风采集的音频包括用户输入的有效音频和可能产生的环境噪声,所述有效音频为用户发出的对话语音,例如用户发出的回复语音、问答语音、打断语音或语气语音中的任意一种,环境噪声为背景噪声或一些突发性的噪声,背景噪声在大多数情况下能量要低于或远低于语音的能量,因此可以设置能量门限过滤背景噪声,而突发性的噪声的能量或过零率往往很高,但是持续时间很短,例如门窗的开关、物体的碰撞、喇叭的鸣叫等任意一种或多种,因此可以通过最短时间门限来区别,为了有效区分用户呼入的音频与环境噪声,精确判断用户输入的有效音频,本发明实施例还提供了判断用户呼入音频是否包括有效音频的方法,如附图2所示,包括:

S1031,检测设备对呼入音频进行分帧;

S1032,计算呼入音频每一帧的平均短时能量和平均短时过零率;

S1033,判断呼入音频的帧段N平均短时能量是否≥短时能量门限,如果是,帧段N为呼入音频的语音段起点,如果否,执行步骤S1034;

S1034,判断呼入音频的帧段N平均短时过零率是否≥短时过零率门限时,如果是,帧段N为呼入音频的语音段起点,如果否,继续执行步骤S1033直到呼入音频所有帧段判断结束;

S1035,判断呼入音频的帧段M平均短时能量是否<短时能量门限,如果是,执行步骤S1036,如果否,继续执行步骤S1035直到呼入音频所有帧段判断结束;

S1036,判断呼入音频的帧段M平均短时过零率是否<短时过零率门限,如果是,帧段M为呼入音频的语音段终点,如果否,继续执行步骤S1035直到呼入音频所有帧段判断结束;

S1037,帧段M的时域-帧段N的时域得到语音段时长;

S1038,判断语音段时长是否≥最短时间门限,如果是,呼入音频包括有效音频,如果否,呼入音频不包括有效音频。

一般性地,一段有效的语音由浊音和清音两部分组成,语音和噪声、语音和非语音的区别可以体现在它们的能量上,一般情况下语音段的能量比噪声段能量大、清音的能量比浊音小,由于语音信号不是一个平稳的过程,需要对语音信号通过加窗的分帧得到某一帧的信号能量,采用滑动窗的方式对语音信号进行分帧处理,窗口可以采用直角窗或Hamming窗中的任意一种,在本实施例中,将用户的呼入音频记为x(n),其中n为呼入音频的采样点,将呼入音频x(n)按照帧长20ms进行分帧,相邻两帧起始点之间相隔10ms,记为帧移,采用8kHZ的采样频率,20ms对应的帧长为160个采样点,记为

Figure DEST_PATH_IMAGE002

,10ms的帧移对应80个采样点,记为

Figure DEST_PATH_IMAGE004

,对于第i帧,第n个采样点,与原始语音信号间的关系为:

Figure DEST_PATH_IMAGE006

第i帧语音信号的短时能量计算公式为:

Figure DEST_PATH_IMAGE008

人的语音分清音和浊音,浊音为声带发出,对应语音信号的幅度高,周期特性明显,采用短时能量可以有效检测;对于没有声带振动的清音,通过分析清音信号的波形发现:在清音阶段,由于口腔空气摩擦的效果,导致波形在幅度上的变化比较剧烈,采用过零率描述一帧语音信号中波形穿越零电平的次数变化的剧烈程度,第i帧语音信号的过零率计算公式为:

Figure DEST_PATH_IMAGE010

在本实施例中,检测设备预先设置短时能量门限和短时过零率门限,根据经验设置短时能量门限为10,短时过零率门限为10,首先,将平均短时能量能量值≥10或平均短时过零率≥10的帧段标记为帧段N,帧段N判断为语音段的起点,将平均短时能量能量值<10且平均短时过零率<10的帧段标记为帧段M,帧段M判断为语音段的终点,帧段N至帧段M被标记为语音段,根据设置的最短时间门限,最短时间门限通常取经验数值150ms,如果语音段的最短长度<150ms,则认为语音段为一段噪音,如果语音段的最短长度≥150ms,则认为语音段是有效音频。

可以理解,本发明实施例中设置的短时能量门限、短时过零率门限、最短时间门限并不局限于实施例中所述的经验数值,本领域普通技术人员可以根据实际情况重新设定短时能量门限、短时过零率门限、最短时间门限的数值,以便适应不同环境背景下有效语音段判定精度需求,同样地,本发明呼入音频采样和分帧的数值也可以根据本领域普通技术人员的需求进行调整。

可以理解,本发明实施例中的步骤S1033、步骤S1034之间以及步骤S1035、步骤S1036之间的判断顺序不是对本发明实施例中判断语音段起点、语音段终点方法步骤顺序的限定,其中,步骤S1034可以在步骤S1033之前执行,步骤S1036也可以在步骤S1035之间执行,具体地说,步骤S1033、S1034顺序的更换并不影响本发明对于语音段起点的确定,步骤S1035、S1036顺序的更换并不影响本发明对于语音段终点的确定,同样地,本发明获得语音段时长的方法也不局限于通过其它数学计算方法获得。

在本发明的一实施例中,短时能量门限采用动态门限阈值,以贴合说话人在不同情况下语音背景的变化或不同说话人语音短时能量的差异,计算动态短时能量门限的方法包括:取一帧语音前的静音帧,计算平均160个采样点的和乘以一个系数(通常在1.0-1.5之间)作为动态短时能量门限。对每一段采集的用户呼入音频采用动态的短时能量门限进行判断以贴合不同说话人或不同语音背景的差异。

在本发明的一实施例中,还设置了最大静音长度用于判断语音段是否结束,例如在一些只发出孤立词的语音中,用户发出的语音段长度短而急促,如果语音段的静音长度小于设置的最大静音长度,判断语音段尚未结束,如果语音段静音长度大于最大静音长度,判断语音段结束。

步骤S104,如果是,所述检测设备响应于所述有效音频执行打断语音机器人的动作;

针对步骤S104而言:当用户呼入音频包括有效音频时,检测设备响应于有效音频执行打断语音机器人的动作,检测设备执行打断语音机器人的动作包括打断语音机器人当前正在输出的语音或禁止语音机器人输出语音中的任意一种。

检测设备执行打断语音机器人的动作起点为检测到用户呼入音频包括有效音频时,检测设备执行打断语音机器人的动作终点为用户有效音频的终点时,一般性的,在语音机器人发出语音的时间段,检测设备检测到用户呼入有效音频时,检测设备立即执行打断语音机器人当前正在输出的语音的动作;在用户发出语音的时间段,检测设备从检测到用户呼入有效音频开始,直到用户呼入有效音频结束的时间段内,检测设备执行禁止语音机器人输出语音的动作。

第二方面,本发明实施例还提供一种检测设备,用于执行如附图1所示的语音交互过程中实时打断语音机器人的方法,如附图3所示,包括:

检测单元301,所述检测单元301用于启动检测设备检测所述呼入音频;

分帧单元302,所述分帧单元302用于对所述呼入音频进行分帧;

计算单元303,所述计算单元303用于计算所述呼入音频每一帧的平均短时能量和平均短时过零率;

判断单元304,所述判断单元304用于判断所述呼入音频语音段时长是否不低于最短时间门限;

执行单元305,所述执行单元305用于执行响应于所述有效音频执行打断语音机器人的动作。

具体地说,语音机器人与用户发起语音交互后,检测单元301启动检测设备30对呼入音频进行检测,所述呼入音频通过用户终端的MIC麦克风在语音交互过程中实时采集,MIC麦克风采集到用户语音信息后并转换为电信号发送至检测设备30,分帧单元302接收到呼入音频的语音信号后对呼入音频进行加窗分帧处理以得到呼入音频的语音帧,借助于语音信号的短时平稳性(在10-30ms内认为语音信号近似不变)将语音帧的帧长设置在10-30ms之间,计算单元303对每一帧语音帧的平均短时能量和平均过零率进行计算,得到每一语音帧的平均短时能量和平均过零率,判断单元304用于判断呼入音频语音段时长是否不低于最短时间门限,判断呼入音频语音段时长的方法包括:

当呼入音频存在语音帧N的平均短时能量≥短时能量门限或语音帧N的平均短时过零率≥短时过零率门限,语音帧N为呼入音频的语音段起点;

当呼入音频存在语音帧M的平均短时能量<短时能量门限且语音帧M的平均短时过零率<短时过零率门限,语音帧M为呼入音频的语音段终点;

语音帧M的时域-语音帧N的时域=呼入音频语音段时长。

当判断单元304判断呼入音频语音段时长≥最短时间门限时,判断呼入音频包括有效音频,执行单元305执行响应于有效音频执行打断语音机器人的动作,执行单元305执行打断语音机器人的动作包括打断语音机器人当前正在输出的语音或禁止语音机器人输出语音中的任意一种。

此外,本发明实施例中的各单元部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的功能实现。

所述集成的单元如果以软件功能模块的形式实现而非作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出实质性贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器或其它包括处理器的设备执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

因此,本发明实施例还提供了一种计算机可读介质,该计算机可读介质存储有语音交互过程中实时打断语音机器人的程序,所述语音交互过程中实时打断语音机器人的程序被处理器执行时实现如附图1和附图2任一项所述的语音交互过程中实时打断语音机器人方法的步骤。

此外,本说明书实施例还提供一种检测设备,如附图4所示,包括:至少一个网络接口402、存储器403和至少一个处理器401。检测设备中的各个组件通过总线系统404耦合在一起。可以理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,但是为了清楚说明起见,在附图4中将各种总线都标为总线系统404。

可以理解,本发明实施例中的存储器403可以易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,R0M)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PR0M,EPR0M)、电可擦除可编程只读存储器 (Electrically EPR0M,EEPR0M)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态 随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器 (Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器403旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器403,处理器401读取存储器403中的信息,结合其硬件完成上述方法的步骤。

在一些实施方式中,存储器403存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统4031和应用程序4032。

其中,操作系统4031,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种寄出业务以及处理基于硬件的任务。应用程序4032,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

在本发明实施例中,检测设备还包括:存储在存储器403上并可在处理器401上运行的计算机程序,计算机程序被至少一个处理器执行实现如下的步骤:

语音机器人与用户语音交互过程中,启动检测设备检测用户发出的呼入音频;

判断用户呼入音频是否包括有效音频;

如果是,所述检测设备响应于所述有效音频执行打断语音机器人的动作。

可选地,所述检测设备预先设置短时能量门限和短时过零率门限;

所述检测设备对呼入音频进行分帧,计算所述呼入音频每一帧的平均短时能量和平均短时过零率;

当所述呼入音频的帧段N的平均短时能量大于或等于所述短时能量门限或帧段N的平均短时过零率大于或等于短时过零率门限时,判断所述帧段N为呼入音频的语音段起点;

当所述呼入音频的帧段M的平均短时能量小于所述短时能量门限且帧段M的平均短时过零率小于短时过零率门限时,判断所述帧段M为呼入音频的语音段终点;

所述语音段时长不低于最短时间门限时,所述呼入音频为有效音频。

可选地,所述语音段时长低于最短时间门限时,所述呼入音频为噪声。

可选地,所述呼入音频每一帧的时长为20ms。

可选地,所述打断语音机器人的动作包括:打断语音机器人当前正在输出的语音或禁止语音机器人输出语音。

此外,所述计算机可读介质被至少一个处理器执行时实现如下步骤:

语音机器人与用户语音交互过程中,启动检测设备检测用户发出的呼入音频;

判断用户呼入音频是否包括有效音频;

如果是,所述检测设备响应于所述有效音频执行打断语音机器人的动作。

可选地,所述检测设备预先设置短时能量门限和短时过零率门限;

所述检测设备对呼入音频进行分帧,计算所述呼入音频每一帧的平均短时能量和平均短时过零率;

当所述呼入音频的帧段N的平均短时能量大于或等于所述短时能量门限或帧段N的平均短时过零率大于或等于短时过零率门限时,判断所述帧段N为呼入音频的语音段起点;

当所述呼入音频的帧段M的平均短时能量小于所述短时能量门限且帧段M的平均短时过零率小于短时过零率门限时,判断所述帧段M为呼入音频的语音段终点;

所述语音段时长不低于最短时间门限时,所述呼入音频为有效音频。

可选地,所述语音段时长低于最短时间门限时,所述呼入音频为噪声。

可选地,所述呼入音频每一帧的时长为20ms。

可选地,所述打断语音机器人的动作包括:打断语音机器人当前正在输出的语音或禁止语音机器人输出语音。

本领域技术人员应当明白,本发明实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本发明的保护范围之内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:显示装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!