一种原声语音翻译方法

文档序号:36608 发布日期:2021-09-24 浏览:36次 >En<

阅读说明:本技术 一种原声语音翻译方法 (Original sound speech translation method ) 是由 孟强祥 田俊麟 宋昱 于 2021-05-31 设计创作,主要内容包括:本发明公开了一种原声语音翻译方法,涉及语音翻译技术领域,一种原声语音翻译方法,包括以下步骤:源语言语音采集,声音特征学习模块提取说话人的声音特征,送入深度神经网络DNN训练学习,STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,通过合成语音模块进行语音合成模拟。本发明通过将语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,通过合成语音模块进行语音合成模拟,发出与说话人语音相似的声音,使翻译后合成的语音高度接近说话人本人的特征。(The invention discloses an acoustic speech translation method, which relates to the technical field of speech translation, and comprises the following steps: the source language voice acquisition and voice feature learning module extracts voice features of a speaker, the voice features are sent to deep neural network DNN training learning, the STT module converts character information of the source voice and the character information is acquired by the translation module and the language feature learning module respectively, wherein the language features of the source language are extracted and recorded in the language feature learning module, and voice synthesis simulation is carried out through the voice synthesis module. The invention takes the language pronunciation characteristics as characteristic values to be sent to a deep neural network DNN for training and learning, obtains the language characteristic model characteristic vector and the human voice characteristic model characteristic vector which are respectively used for reference of a translation and synthesis module after learning, carries out voice synthesis simulation through a synthesis voice module, and sends out the voice similar to the voice of the speaker, so that the synthesized voice after translation is highly close to the characteristics of the speaker.)

一种原声语音翻译方法

技术领域

本发明涉及语音翻译

技术领域

,具体涉及一种原声语音翻译方法。

背景技术

人工智能技术的发展使得语音翻译极大的发展与应用。语音翻译的过程主要将说话人的源语音信号转换为源文本信息,源文本信息通过文本翻译模块转换为目标语言的文本信息,再通过语音合成模块生成目标语言的语音信号播放而完成语音翻译,如今常用的语音翻译技术中,其翻译后发出的合成语音往往出现性别差异,说话人为男性但翻译语音为女声,缺少对说话人个性化的反应,无法传递说话想表达的情感和语言特征,且往往输出的语音生硬且交互体验不佳,进而造成翻译效果不够理想。

发明内容

本发明的目的是提供一种原声语音翻译方法,以解决现有技术中的上述不足之处。

为了实现上述目的,本发明提供如下技术方案:一种原声语音翻译方法,包括以下步骤:

步骤一、源语言语音采集,通过语音采集模块将语音信息采集后,发送给声音特征学习模块和STT(Speech-To-Text)模块。

步骤二、声音特征学习模块提取说话人的声音特征,特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN(DeepNeural Network)训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量。

步骤三、STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,该特征经深度神经网络DNN的学习后修正语言特征模型,该模型所用参数被用于翻译模块的重要参考参数,作为翻译的预判信息;

步骤四、通过合成语音模块进行语音合成模拟,将翻译后,且经深度神经网络DNN的学习后修正语言特征模型作为语音输出的信息基础,模拟输出语言信息,采用时间区间模型与基频模型结合建立合成语音模型,生成时频谱信号,利用葛林氏算法Griffin-Lim对合成语音模块进行合成处理,得到对应的人声特征语音信号,合成语音模型如下:

S为给定的时频谱信号,

xi为第i次重建的信号,

f为短时距傅里叶变换,

f-1为反变换,

Si,Pi分别代表xi的短时傅里叶变换的大小及相位;

步骤五、不断的重建信号,最终合成最接近说话者的语言、语音特征,并根据翻译内容,实时翻译播放,完成语音翻译过程。

优选的,所述步骤一中源语音采集包含对声音信号的预处理和判断,所述预处理包含语音的增强,背景声音消除,回声抑制等有利于优化信号的处理,所述判断包括判断声音信号中是否包含语言信息,如果未检测到语言信息,则当前信息被丢弃。

优选的,所述步骤二中声音特征模型具有预先训练好的声音特征模型,每次新的语音声音特征被学习均会修正该模型。

优选的,所述步骤二中声音特征学习模块包含特征提取,所提取的特征主要包含语言发音的特征,如元音、辅音、浊音等,提取的特征还包含说话人的发声特征,如音强、音调、音色。

优选的,所述步骤三中翻译流程的主要模块是同步实时执行的,而声音与语言特征的学习和模型修正过程可以异步执行,从而不影响翻译过程的实时性。

在上述技术方案中,本发明提供的技术效果和优点:

本发明通过语音采集模块将语音信息采集后,语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,同时STT模块转换源语音的文字信息,经深度神经网络DNN的学习后修正语言特征模型,作为翻译的预判信息,随后通过合成语音模块进行语音合成模拟,以具有说话人说话风格的语言信息为基础,经合成后发出与说话人语音相似的声音,从而在翻译后合成的语音高度接近说话人本人的特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本发明的整体结构示意图。

图2为本发明声音特征提取流程图。

图3为本发明ADSR包络示图图。

图4为本发明模型重建的逻辑框图。

附图标记说明:

A:声音从静音到发音峰值的时间,此时是能量爆发阶段;

D:从峰值回落的发音稳定的时间;

S:稳定发音的时间区间;

R:发音结束后回落的时间。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。

本发明提供了一种原声语音翻译方法,包括以下步骤:

步骤一、源语言语音采集,通过语音采集模块将语音信息采集后,发送给声音特征学习模块和STT(Speech-To-Text)模块。

步骤二、声音特征学习模块提取说话人的声音特征,特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN(DeepNeural Network)训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量。

步骤三、STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,该特征经深度神经网络DNN的学习后修正语言特征模型,该模型所用参数被用于翻译模块的重要参考参数,作为翻译的预判信息;

步骤四、通过合成语音模块进行语音合成模拟,将翻译后,且经深度神经网络DNN的学习后修正语言特征模型作为语音输出的信息基础,模拟输出语言信息,采用时间区间模型与基频模型结合建立合成语音模型,生成时频谱信号,利用葛林氏算法Griffin-Lim对合成语音模块进行合成处理,得到对应的人声特征语音信号,合成语音模型如下:

S为给定的时频谱信号,

xi为第i次重建的信号,

f为短时距傅里叶变换,

f-1为反变换,

Si,Pi分别代表xi的短时傅里叶变换的大小及相位;

给定的时频谱信号S,要重建这一信号需要时频谱信息越接近S越好;

人声特征包括:

音强(intensity):发音的力度也是音频信号的震动振幅,

音调(pitch):音频信号的振动频率,

音色(timbre):也称为音品,音色对于说话者而言是表示说话者声音有别于其他人的重要指标,音色由其对应的频谱包络(Envelope)所决定,ADSR是主要四个参数分别是Attack,Delay,Sustain和Release,同样的字符,不同的人发音会有不同的声音,主要是这四个参数决定;

步骤五、不断的重建信号,最终合成最接近说话者的语言、语音特征,并根据翻译内容,实时翻译播放,完成语音翻译过程;

进一步的,在上述技术方案中,所述步骤一中源语音采集包含对声音信号的预处理和判断,所述预处理包含语音的增强,背景声音消除,回声抑制等有利于优化信号的处理,所述判断包括判断声音信号中是否包含语言信息,如果未检测到语言信息,则当前信息被丢弃;

进一步的,在上述技术方案中,所述步骤二中声音特征模型具有预先训练好的声音特征模型,每次新的语音声音特征被学习均会修正该模型;

进一步的,在上述技术方案中,所述步骤二中声音特征学习模块包含特征提取,所提取的特征主要包含语言发音的特征,如元音、辅音、浊音等,提取的特征还包含说话人的发声特征,如音强、音调、音色;

进一步的,在上述技术方案中,所述步骤三中翻译流程的主要模块是同步实时执行的,而声音与语言特征的学习和模型修正过程可以异步执行,从而不影响翻译过程的实时性;

实施方式具体为:通过语音采集模块将语音信息采集后,发送给声音特征学习模块和STT模块,声音特征被提取后经过深度神经网络DNN的学习建立声音特征模型,语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,同时STT模块转换源语音的文字信息,语言特征学习提取和记录源语言的语言特征,经深度神经网络DNN的学习后修正语言特征模型,作为翻译的预判信息,随后通过合成语音模块进行语音合成模拟,以具有说话人说话风格的语言信息为基础,经合成后发出与说话人语音相似的声音,从而在翻译后合成的语音高度接近说话人本人的特征。

以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种快速语音克隆方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!