语音断句方法、装置、计算机设备及存储介质

文档序号:36619 发布日期:2021-09-24 浏览:38次 >En<

阅读说明:本技术 语音断句方法、装置、计算机设备及存储介质 (Method and device for speech sentence-breaking, computer equipment and storage medium ) 是由 曹磊 李俊蓉 于 2021-06-29 设计创作,主要内容包括:本发明涉及人工智能技术领域,提供一种语音断句方法及相关设备,使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间,以所述静默时间为断点对用户语音进行断句处理,实现了千人千面的打断判断;在得到多个第一断句语音后,使用词汇模型识别每个第一断句语音中的末端字词是否为目标字词,从而在识别到有目标末端字词为目标字词时,对包含目标末端字词的目标第一断句语音进行断句处理得到多个第二断句语音,将包含目标末端字词的第二断句语音与目标第一断句语音相邻的第一断句语音进行合并处理得到第三断句语音,最后根据第三断句语音对第一断句语音进行更新,得到目标断句语音,实现了对用户语音的正确断句。(The invention relates to the technical field of artificial intelligence, and provides a voice sentence-breaking method and related equipment.A silent time calculation model is used for calculating silent time according to the speech speed and the intonation of user voice and user parameters, and the silent time is used as a breakpoint to perform sentence-breaking processing on the user voice, so that interruption judgment of thousands of people and thousands of faces is realized; after the plurality of first sentence-break voices are obtained, whether the tail end word in each first sentence-break voice is the target word is identified by using the vocabulary model, so that when the target tail end word is identified as the target word, sentence-break processing is carried out on the target first sentence-break voice containing the target tail end word to obtain a plurality of second sentence-break voices, the second sentence-break voice containing the target tail end word and the first sentence-break voice adjacent to the target first sentence-break voice are combined to obtain a third sentence-break voice, and finally the first sentence-break voice is updated according to the third sentence-break voice to obtain the target sentence-break voice, so that correct sentence-break of the voice of the user is realized.)

语音断句方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能

技术领域

,具体涉及一种语音断句方法、装置、计算机设备及存储介质。

背景技术

目前市面上的外呼对话机器人,在进行语音识别的时候,通常以停顿为判断依据进行断句,但在实际识别时容易出现断句不正确的情况,主要有以下的情况:

1)用户在回复机器人时,会出现边说边思考的情况,在表达一句短句后其实还没说完,但由于思考时间、反应时间出现迟疑时,容易被进行断句,导致只识别了前半句的情况;

2)用户在回复机器人时,如有环境比较嘈杂或者有背景声时,容易出现用户已经说完,但依然有声音,导致无法判断是否已断句,从而导致无法识别出文字,引起机器人无法及时回应的情况;

3)用户在回复机器人时,由于本身说话的语音语调各有差异,语速较慢时,容易引起断句不正确,导致只识别前半句的情况。

发明内容

鉴于以上内容,有必要提出一种语音断句方法、装置、计算机设备及存储介质,能够提升语音断句的准确性。

本发明的第一方面提供一种语音断句方法,所述方法包括:

获取用户参数及用户语音,根据所述用户语音获取语速语调,调用静默时间计算模型基于所述语速语调和所述用户参数获取静默时间;

根据所述静默时间对所述用户语音进行断句处理,得到多个第一断句语音;

提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词;

当识别到所述末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音;

获取包含所述目标字词的第一断句语音的相邻断句语音为待处理语音并将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音;

将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音。

根据本发明的一个可选的实施方式,在得到所述目标断句语音之后,所述方法还包括:

设置约束条件;

对所述目标断句语音进行包括预加重、加窗分帧在内的预处理;

对预处理后的目标断句语音进行快速傅里叶变换,得到多个子带;

使用所述约束条件对每个子带进行线性约束,得到目标子带;

计算每个目标子带的能量概率分布密度及根据所述能量概率分布密度计算对应的子带的谱熵;

对每个子带的谱熵进行平滑处理得到门限阈值;

使用双门限端点检测法基于所述门限阈值检测出音节起始点和终止点;

根据所述音节起始点和所述终止点对所述目标断句语音进行语音分割。

根据本发明的一个可选的实施方式,所述使用所述约束条件对每个子带进行线性约束,得到目标子带包括:

获取每个子带的频谱及频谱概率密度;

将不在预设目标范围内的频谱设置为0,将在所述目标范围内的频谱进行保留,并将大于预设目标值的频谱概率密度设置为0,将小于或者等于所述预设目标值的频谱概率密度进行保留,得到目标子带。

根据本发明的一个可选的实施方式,所述方法还包括:

将所述用户语音转换为用户文本;

对所述用户文本进行分词处理得到多个关键词;

获取每个关键词的词向量;

根据所述词向量生成文本断句特征;

根据所述文本断句特征以及长时记忆断句模型对所述用户文本进行断句,得到断句文本;

对所述断句文本及所述目标断句语音进行比对,得到比对结果。

根据本发明的一个可选的实施方式,所述对所述断句文本及所述目标断句语音进行比对,得到比对结果包括:

将所述目标断句语音转换为目标断句文本;

计算所述目标断句文本与对应的断句文本的相似度;

当所述目标断句文本与对应的断句文本的相似度大于预设相似度阈值,则比对结果为所述断句文本与所述目标断句语音比对一致;

当所述目标断句文本与对应的断句文本的相似度小于所述预设相似度阈值,则比对结果为所述断句文本与所述目标断句语音比对不一致。

根据本发明的一个可选的实施方式,所述方法还包括:

获取所述比对结果为所述断句文本与所述目标断句语音比对一致的第一数量;

获取所述目标断句语音的第二数量;

根据所述第一数量及所述第二数量计算所述目标断句语音的准确率。

根据本发明的一个可选的实施方式,所述方法还包括:

在得到所述目标断句语音后,将所述目标断句语音对应的语音文本显示给用户;或者

在得到所述目标断句语音后,在需要断句处添加断句标记,并将添加断句标记后的断句语音对应的语音文本显示给用户。

本发明的第二方面提供一种语音断句装置,所述装置包括:

时间计算模块,用于获取用户参数及用户语音,根据所述用户语音获取语速语调,调用静默时间计算模型基于所述语速语调和所述用户参数获取静默时间;

第一断句模块,用于根据所述静默时间对所述用户语音进行断句处理,得到多个第一断句语音;

字词识别模块,用于提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词;

第二断句模块,用于当识别到所述末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音;

语音合并模块,用于获取包含所述目标字词的第一断句语音的相邻断句语音为待处理语音并将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音;

语音排列模块,用于将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音。

本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现所述语音断句方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音断句方法。

综上所述,本发明所述的语音断句方法、装置、计算机设备及存储介质,通过使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间,根据所述静默时间对所述用户语音进行断句处理,实现了千人千面的打断判断;在得到多个第一断句语音后,提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词,从而在识别到有目标末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音,将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音,有效的解决了目标第一断句语音及目标第一断句语音相邻的第一断句语音被错误断句的情形,最后将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音,实现了对用户语音的正确断句。

附图说明

图1是本发明实施例一提供的语音断句方法的流程图。

图2是本发明实施例二提供的语音断句装置的结构图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例提供的语音断句方法由计算机设备执行,相应地,语音断句装置运行于计算机设备中。

图1是本发明实施例一提供的语音断句方法的流程图。所述语音断句方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,获取用户参数及用户语音,根据所述用户语音获取语速语调,调用静默时间计算模型基于所述语速语调和所述用户参数获取静默时间。

其中,用户参数可以包括,但不限于:年龄,性别,所在区域,教育水平等。

其中,静默时间计算模型为预先训练的用于计算静默时间的机器学习模型。在一些可选的实施方式中,可以获取多个已知用户的用户参数及每个已知用户的用户语音,提取已知用户的用户语音的语速语调,将多个已知用户的用户参数及对应的语速语调作为训练数据,将每个已知用户的静默时间作为训练标签,训练深度神经网络,得到静默时间计算模型。在将语速语调和用户参数作为输入数据输入值静默时间计算模型中,即可通过静默时间计算模型输出静默时间。

在一些可选的实施方式中,在噪音存在的情况下,用于说话的语速语调都会随着噪音的存在而发生相应的改变,导致后续语音断句的准确性降低。为了降低噪音的影响,可以对获取的用户语音进行去噪处理,得到去噪后的用户语音。

S12,根据所述静默时间对所述用户语音进行断句处理,得到多个第一断句语音。

以所述静默时间为断点,对所述用户语音进行断句,从而得到多个第一断句语音。

S13,提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词。

其中,末端字词可以为一个字,也可以为两个字或者三个字组成的词。

可以预先设置词汇模型,所述词汇模型可以为目标字词库,目标字词库用于记录目标字词,例如,用于表示思考性的字词(嗯,啊),目标字词用于表示该字词并非为结束语。

将末端字词提取出来后,将末端字词与目标字词库中的每一个目标字词进行匹配,从而识别末端字词是否为目标字词。

当识别到目标末端字词不为目标字词时,表明目标末端字词为结束语,即包含该目标末端字词的第一断句语音为真正的断句,包含该目标末端字词的第一断句语音断句正确。

当识别到目标末端字词为目标字词时,表明目标末端字词并非为结束语,即包含该目标末端字词的第一断句语音并不是真正的断句,包含该目标末端字词的第一断句语音断句错误。

S14,当识别到所述末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音。

当识别到所述末端字词为目标字词时,表明需要进一步对包含所述目标字词的第一断句语音进行断句处理,从而得到包含所述目标字词的第二断句语音及不包含所述目标字词的第二断句语音。

S15,获取包含所述目标字词的第一断句语音的相邻断句语音为待处理语音并将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音。

为了便于描述,将包含所述目标字词的第一断句语音称之为目标第一断句语音,则包含所述目标末端字词的第一断句语音相邻的第一断句语音是指位于所述目标第一断句语音右侧的第一断句语音。

将包含所述目标字词的第二断句语音与目标第一断句语音相邻的第一断句语音进行合并处理,能够解决目标第一断句语音及目标第一断句语音相邻的第一断句语音被错误断句的情形。

S16,将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到目标断句语音。

在得到第三断句语音后,将不包含目标字词的第一断句语音、不包含目标字词的第二断句语音及第三断句语音按照顺序排列,得到目标断句语音,目标断句语音为正确的断句,相当于实现了对根据静默时间对用户语音进行断句处理得到的多个第一断句语音的更新。

在一个可选的实施方式中,在得到所述目标断句语音之后,所述方法还包括:

设置约束条件;

对所述目标断句语音进行包括预加重、加窗分帧在内的预处理;

对预处理后的目标断句语音进行快速傅里叶变换,得到多个子带;

使用所述约束条件对每个子带进行线性约束,得到目标子带;

计算每个目标子带的能量概率分布密度及根据所述能量概率分布密度计算对应的子带的谱熵;

对每个子带的谱熵进行平滑处理得到门限阈值;

使用双门限端点检测法基于所述门限阈值检测出音节起始点和终止点;

根据所述音节起始点和所述终止点对所述目标断句语音进行语音分割。

可以采用8KHZ的采样率对目标断句语音进行采样。

所述约束条件可以包括:归一化频谱范围为预设目标范围,归一化能量概率分布密度的上限为预设目标值。其中,预设目标范围可以为250-3500HZ,预设目标值可以为0.9。通过设置约束条件,能够消除噪声对语音分割的影响,避免某个音节被遗漏分割,从而有助于提高语音识别为文本的准确性。

语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和终止点,将有效的语音信号和无用的噪声信号得以分离。双门限端点检测法基于阈值根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,将这些特征与设定的阈值进行比较,从而达到端点检测的目的。

目标子带的能量概率分布密度Pb(m,i)采用如下公式进行计算:

其中,1≤m≤Nb,Nb为子带的数量,K为引入的正常数,每个子带包括4条谱线,Eb(m,i)表示第i帧中的第m个子带的子带能量。

子带的谱熵Hb(i)采用如下公式进行计算:

在一个可选的实施方式中,所述使用所述约束条件对每个子带进行线性约束,得到目标子带包括:

获取每个子带的频谱及频谱概率密度;

将不在预设目标范围内的频谱设置为0,将在所述目标范围内的频谱进行保留,并将大于预设目标值的频谱概率密度设置为0,将小于或者等于所述预设目标值的频谱概率密度进行保留,得到目标子带。

子带的频谱及频谱概率密度的计算过程为现有技术,本发明在此不详细阐述。

由于大部分语音信号的频谱在目标范围内,因此,为了提高语音段和噪声段的辨别能力,通过将不在预设目标范围内的频谱设置为0,能够消除噪声的影响。为了进一步消除某些噪声中的某个频率对谱熵的影响,将大于目标值的频谱概率密度设置为0,使得频谱概率密度上限为目标值。

该可选的实施方式中,通过设置约束条件对每个子带进行线性约束,得到目标子带,既能够消除噪声的影响,又能够消除某些噪声中的某个频率对谱熵的影响,并将噪声归一化为0,如此既能够保证语音分割的准确性,又能减少语音分割的计算量,提高语音分割的计算效率。

在一个可选的实施方式中,所述方法还包括:

将所述用户语音转换为用户文本;

对所述用户文本进行分词处理得到多个关键词;

获取每个关键词的词向量;

根据所述词向量生成文本断句特征;

根据所述文本断句特征以及长时记忆断句模型对所述用户文本进行断句,得到断句文本;

对所述断句文本及所述目标断句语音进行比对,得到比对结果。

长时记忆断句模型为预先训练的用于根据文本断句特征对文本进行断句的机器学习模型,其训练过程为现有技术,不再详细阐述。

可以采用语音转文本技术将所述用户语音转换为用户文本,再提取用户文本的文本断句特征,从而使用预先训练好的长时记忆断句模型根据文本断句特征对用户文本进行断句,得到多个断句文本。

采用语音转文本技术将每个目标断句语音转换为目标断句文本,计算目标断句文本与对应的断句文本的相似度,来对所述目标断句语音及所述断句文本进行比对。当目标断句文本与对应的断句文本的相似度大于预设相似度阈值,则比对结果为断句文本及所述目标断句语音比对一致。当目标断句文本与对应的断句文本的相似度小于预设相似度阈值,则比对结果为断句文本及所述目标断句语音比对不一致。

获取比对结果为断句文本及所述目标断句语音比对一致的第一数量,获取目标断句语音的第二数量,根据所述第一数量及所述第二数量计算所述目标断句语音的准确率。

应当理解的是,对于目标断句文本与对应的断句文本的相似度等于预设相似度阈值的情形,即可适用于目标断句文本与对应的断句文本的相似度大于预设相似度阈值,也可适用于目标断句文本与对应的断句文本的相似度小于预设相似度阈值的情形。

在一个可选的实施方式中,所述方法还包括:

在得到所述目标断句语音后,将所述目标断句语音对应的语音文本显示给用户;或者

在得到所述目标断句语音后,在需要断句处添加断句标记,并将添加断句标记后的断句语音对应的语音文本显示给用户。

本发明提供的方法,通过使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间,根据所述静默时间对所述用户语音进行断句处理,实现了千人千面的打断判断;在得到多个第一断句语音后,提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词,从而在识别到有目标末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音,将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音,有效的解决了目标第一断句语音及目标第一断句语音相邻的第一断句语音被错误断句的情形,最后将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音,实现了对用户语音的正确断句。

本发明所述的方法可以应用于外呼场景,能够准确地识别及判断用户的真实打断,从而准确的获取用户意图,完成任务型外呼场景的目的,机器人与用户的对话更为流畅且拟人化,提升了对话体验。

需要强调的是,为进一步保证上述用户语言的私密性和安全性,上述用户语言可存储于区块链的节点中。

图2是本发明实施例二提供的语音断句装置的结构图。

在一些实施例中,所述语音断句装置20可以包括多个由计算机程序段所组成的功能模块。所述语音断句装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)语音断句的功能。

本实施例中,所述语音断句装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:时间计算模块201、第一断句模块202、字词识别模块203、第二断句模块204、语音合并模块205、语音排列模块206、语音分割模块207及断句比对模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述时间计算模块201,用于获取用户参数及用户语音,根据所述用户语音获取语速语调,调用静默时间计算模型基于所述语速语调和所述用户参数获取静默时间。

其中,用户参数可以包括,但不限于:年龄,性别,所在区域,教育水平等。

其中,静默时间计算模型为预先训练的用于计算静默时间的机器学习模型。在一些可选的实施方式中,可以获取多个已知用户的用户参数及每个已知用户的用户语音,提取已知用户的用户语音的语速语调,将多个已知用户的用户参数及对应的语速语调作为训练数据,将每个已知用户的静默时间作为训练标签,训练深度神经网络,得到静默时间计算模型。在将语速语调和用户参数作为输入数据输入值静默时间计算模型中,即可通过静默时间计算模型输出静默时间。

在一些可选的实施方式中,在噪音存在的情况下,用于说话的语速语调都会随着噪音的存在而发生相应的改变,导致后续语音断句的准确性降低。为了降低噪音的影响,可以对获取的用户语音进行去噪处理,得到去噪后的用户语音。

所述第一断句模块202,用于根据所述静默时间对所述用户语音进行断句处理,得到多个第一断句语音。

以所述静默时间为断点,对所述用户语音进行断句,从而得到多个第一断句语音。

所述字词识别模块203,用于提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词。

其中,末端字词可以为一个字,也可以为两个字或者三个字组成的词。

可以预先设置词汇模型,所述词汇模型可以为目标字词库,目标字词库用于记录目标字词,例如,用于表示思考性的字词(嗯,啊),目标字词用于表示该字词并非为结束语。

将末端字词提取出来后,将末端字词与目标字词库中的每一个目标字词进行匹配,从而识别末端字词是否为目标字词。

当识别到目标末端字词不为目标字词时,表明目标末端字词为结束语,即包含该目标末端字词的第一断句语音为真正的断句,包含该目标末端字词的第一断句语音断句正确。

当识别到目标末端字词为目标字词时,表明目标末端字词并非为结束语,即包含该目标末端字词的第一断句语音并不是真正的断句,包含该目标末端字词的第一断句语音断句错误。

所述第二断句模块204,用于当识别到所述末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音。

当识别到所述末端字词为目标字词时时,表明需要进一步对包含所述目标字词的第一断句语音进行断句处理,从而得到包含所述目标字词的第二断句语音及不包含所述目标字词的第二断句语音。

所述语音合并模块205,用于获取包含所述目标字词的第一断句语音的相邻断句语音为待处理语音并将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音。

为了便于描述,将包含所述目标字词的第一断句语音称之为目标第一断句语音,则包含所述目标末端字词的第一断句语音相邻的第一断句语音是指位于所述目标第一断句语音右侧的第一断句语音。

将包含所述目标字词的第二断句语音与目标第一断句语音相邻的第一断句语音进行合并处理,能够解决目标第一断句语音及目标第一断句语音相邻的第一断句语音被错误断句的情形。

所述语音排列模块206,用于获取不包含所述目标字词的所述第一断句语音;将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到目标断句语音。

在得到第三断句语音后,将不包含目标字词的第一断句语音、不包含目标字词的第二断句语音及第三断句语音按照顺序排列,得到目标断句语音,目标断句语音为正确的断句,相当于实现了对根据静默时间对用户语音进行断句处理得到的多个第一断句语音的更新。

在一个可选的实施方式中,在得到所述目标断句语音之后,所述语音分割模块207,用于:

设置约束条件;

对所述目标断句语音进行包括预加重、加窗分帧在内的预处理;

对预处理后的目标断句语音进行快速傅里叶变换,得到多个子带;

使用所述约束条件对每个子带进行线性约束,得到目标子带;

计算每个目标子带的能量概率分布密度及根据所述能量概率分布密度计算对应的子带的谱熵;

对每个子带的谱熵进行平滑处理得到门限阈值;

使用双门限端点检测法基于所述门限阈值检测出音节起始点和终止点;

根据所述音节起始点和所述终止点对所述目标断句语音进行语音分割。

可以采用8KHZ的采样率对目标断句语音进行采样。

所述约束条件可以包括:归一化频谱范围为预设目标范围,归一化能量概率分布密度的上限为预设目标值。其中,预设目标范围可以为250-3500HZ,预设目标值可以为0.9。通过设置约束条件,能够消除噪声对语音分割的影响,避免某个音节被遗漏分割,从而有助于提高语音识别为文本的准确性。

语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和终止点,将有效的语音信号和无用的噪声信号得以分离。双门限端点检测法基于阈值根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,将这些特征与设定的阈值进行比较,从而达到端点检测的目的。

目标子带的能量概率分布密度Pb(m,i)采用如下公式进行计算:

其中,1≤m≤Nb,Nb为子带的数量,K为引入的正常数,每个子带包括4条谱线,Eb(m,i)表示第i帧中的第m个子带的子带能量。

子带的谱熵Hb(i)采用如下公式进行计算:

在一个可选的实施方式中,所述使用所述约束条件对每个子带进行线性约束,得到目标子带包括:

获取每个子带的频谱及频谱概率密度;

将不在预设目标范围内的频谱设置为0,将在所述目标范围内的频谱进行保留,并将大于预设目标值的频谱概率密度设置为0,将小于或者等于所述预设目标值的频谱概率密度进行保留,得到目标子带。

子带的频谱及频谱概率密度的计算过程为现有技术,本发明在此不详细阐述。

由于大部分语音信号的频谱在目标范围内,因此,为了提高语音段和噪声段的辨别能力,通过通过将不在预设目标范围内的频谱设置为0,能够消除噪声的影响,能够消除噪声的影响。为了进一步消除某些噪声中的某个频率对谱熵的影响,将大于目标值的频谱概率密度设置为0,使得频谱概率密度上限为目标值。

该可选的实施方式中,通过设置约束条件对每个子带进行线性约束,得到目标子带,既能够消除噪声的影响,又能够消除某些噪声中的某个频率对谱熵的影响,并将噪声归一化为0,如此既能够保证语音分割的准确性,又能减少语音分割的计算量,提高语音分割的计算效率。

在一个可选的实施方式中,所述断句比对模块208,用于:

将所述用户语音转换为用户文本;

对所述用户文本进行分词处理得到多个关键词;

获取每个关键词的词向量;

根据所述词向量生成文本断句特征;

根据所述文本断句特征以及长时记忆断句模型对所述用户文本进行断句,得到断句文本;

对所述断句文本及所述目标断句语音进行比对,得到比对结果。

长时记忆断句模型为预先训练的用于根据文本断句特征对文本进行断句的机器学习模型,其训练过程为现有技术,不再详细阐述。

可以采用语音转文本技术将所述用户语音转换为用户文本,再提取用户文本的文本断句特征,从而使用预先训练好的长时记忆断句模型根据文本断句特征对用户文本进行断句,得到多个断句文本。

采用语音转文本技术将每个目标断句语音转换为目标断句文本,计算目标断句文本与对应的断句文本的相似度,来对所述目标断句语音及所述断句文本进行比对。当目标断句文本与对应的断句文本的相似度大于预设相似度阈值,则比对结果为断句文本及所述目标断句语音比对一致。当目标断句文本与对应的断句文本的相似度小于预设相似度阈值,则比对结果为断句文本及所述目标断句语音比对不一致。

计算比对结果为断句文本及所述目标断句语音比对一致的第一数量,计算目标断句语音的第二数量,根据所述第一数量及所述第二数量计算所述目标断句语音的准确率。

应当理解的是,对于目标断句文本与对应的断句文本的相似度等于预设相似度阈值的情形,即可适用于目标断句文本与对应的断句文本的相似度大于预设相似度阈值,也可适用于目标断句文本与对应的断句文本的相似度小于预设相似度阈值的情形。

在一个可选的实施方式中,可以在得到所述目标断句语音后,将所述目标断句语音对应的语音文本显示给用户;或者在得到所述目标断句语音后,在需要断句处添加断句标记,并将添加断句标记后的断句语音对应的语音文本显示给用户。

本发明提供的装置,通过使用静默时间计算模型根据用户语音的语速语调及用户参数计算静默时间,根据所述静默时间对所述用户语音进行断句处理,实现了千人千面的打断判断;在得到多个第一断句语音后,提取每个第一断句语音中的末端字词,使用预先训练的词汇模型识别每个末端字词是否为目标字词,从而在识别到有目标末端字词为目标字词时,对包含所述目标字词的所述第一断句语音进行断句处理,得到多个第二断句语音,将包含所述目标字词的所述第二断句语音与所述待处理语音进行合并处理,得到第三断句语音,有效的解决了目标第一断句语音及目标第一断句语音相邻的第一断句语音被错误断句的情形,最后将不包含所述目标字词的所述第一断句语音、不包含所述目标字词的所述第二断句语音及所述第三断句语音按照顺序排列,得到所述目标断句语音,实现了对用户语音的正确断句。

本发明所述的装置可以应用于外呼场景,能够准确地识别及判断用户的真实打断,从而准确的获取用户意图,完成任务型外呼场景的目的,机器人与用户的对话更为流畅且拟人化,提升了对话体验。

需要强调的是,为进一步保证上述用户语言的私密性和安全性,上述用户语言可存储于区块链的节点中。

参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的语音断句方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的语音断句方法的全部或者部分步骤;或者实现语音断句装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种用于语音指令捕捉的信号精确度调节系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!