通过频谱包络共振峰的频移动态修改语音音色的方法和装置

文档序号：1602700 发布日期：2020-01-07 浏览：40次 >En<

阅读说明：本技术 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 (Method and apparatus for dynamically modifying the timbre of speech by frequency shifting of spectral envelope formants ) 是由让-朱立安·奥库蒂里耶帕布罗·阿里亚斯阿克塞尔·罗贝尔于 2018-02-12 设计创作，主要内容包括：本发明描述了一种用于修改声音信号的方法,所述方法包括：在频域中获得声音信号的时间帧的步骤；针对至少一个时间帧,在频域中应用声音信号的第一变换,包括：针对所述至少一个时间帧提取声音信号的频谱包络的步骤；计算所述频谱包络的共振峰的频率的步骤；修改(350)声音信号的频谱包络的步骤,所述修改包括应用(351)频谱包络的频率的连续递增变换函数,该连续递增变换函数由频谱包络的至少两个共振峰频率参数化。(The invention describes a method for modifying a sound signal, the method comprising: a step of obtaining a time frame of the sound signal in the frequency domain; applying a first transform of a sound signal in the frequency domain for at least one time frame, comprising: a step of extracting a spectral envelope of the sound signal for the at least one time frame; a step of calculating the frequency of the formants of the spectral envelope; a step of modifying (350) a spectral envelope of the sound signal, the modifying comprising applying (351) a continuous increasing transformation function of the frequency of the spectral envelope, the continuous increasing transformation function being parameterized by at least two formant frequencies of the spectral envelope.)

【技术领域】

本发明涉及声学处理领域。更具体地，本发明涉及修改包含语言的声学信号，以便为语音提供音色，例如微笑音色。

【背景技术】

微笑可辨识地改变我们语音的声音，以至于到了客户服务部门建议他们的代表在电话上微笑的程度。即使客户看不到微笑，也会对客户满意度产生积极影响。

研究与微笑语音相关的声音信号的特征是一个尚未被充分记录的新研究领域。使用颧肌微笑会改变口腔的形状，从而影响语音的频谱。已经特别证实，当说话者微笑时，语音的声谱指向较高的频率，而当语音悲伤时，语音的声谱指向较低的频率。

文献Quené H.,Semin,G.R.,&Foroni,F.(2012).Audible smiles and frownsaffect speech comprehension.Speech Communication,54(7),917-922描述了一种微笑语音模拟测试。该实验包括记录一个由实验者中性发音的单词。该实验基于共振峰的频率与语音的音色之间的关系。语言声音的共振峰是语言的声谱的能量最大值。Quené实验包括：当它发出单词时，分析语音的共振峰，存储共振峰的频率，通过将初始共振峰的频率增加10％来产生修改后的共振峰，然后用修改后的共振峰重新合成单词。

Quené实验使得可以获得被感知到是在微笑时发音的单词。然而，合成的单词具有将被用户感知为人造的音色。

此外，Quené提出的两步架构要求在能够重新合成信号之前分析信号的一部分，从而导致在发出单词的时刻与可以广播其变换的时刻之间产生时移。因此，Quené的方法无法实时修改语音。

实时修改语音有许多有趣的应用。例如，语音的实时修改可以应用于呼叫中心应用：话务员的语音可以在传输给客户之前实时修改，以便显得更加微笑。因此，顾客将感觉到他的代表在对他微笑，这可能会提高顾客满意度。

另一应用是修改视频游戏中的非玩家角色的语音。非玩家角色是由计算机控制的所有角色，通常是次要角色。这些角色通常与要说出的不同回应相关联，这允许玩家在视频游戏的情节中前进。这些回应通常以音频文件的形式存储，并在玩家与非玩家角色交互时被读出。有趣的是，从单个中性音频文件中，将不同的滤波器应用于中性声音，以产生音色，例如微笑或紧张，以模拟非玩家角色的情绪，并增强游戏中的沉浸感。

因此，需要一种修改语音的音色的方法，该方法足够简单以便利用当前计算能力实时执行，并且修改后的语音被感知为是自然语音。

【

发明内容

】

为此目的，本发明描述了一种用于修改声音信号的方法，所述方法包括：在频域中获得声音信号的时间帧的步骤；针对至少一个时间帧，在频域中应用声音信号的第一变换，包括：针对所述至少一个时间帧，提取声音信号的频谱包络的步骤；计算所述频谱包络的共振峰的频率的步骤；修改声音信号的频谱包络的步骤，所述修改包括应用频谱包络的频率的连续递增变换函数，该连续递增变换函数由频谱包络的至少两个共振峰频率参数化。

有利地，修改所述声音信号的所述频谱包络的步骤还包括:对所述频谱包络应用滤波器，所述滤波器由所述声音信号的所述频谱包络的第三共振峰的频率参数化。

有利地，所述方法包括：根据包括至少一种浊音帧类别和一种非浊音帧类别的一组时间帧类别对时间帧进行分类的步骤。

有利地，该方法包括：针对每个浊音帧，在频域中应用所述声音信号的所述第一变换；针对每个非浊音帧，在频域中应用所述声音信号的第二变换，所述第二变换包括：应用滤波器以增加以预定频率为中心的声音信号的能量的步骤。

有利地，所述声音信号的所述第二变换包括：针对所述至少一个时间帧，提取所述声音信号的频谱包络的步骤；应用所述频谱包络的频率的连续递增变换函数，该连续递增变换函数与紧接在前的时间帧的频谱包络的频率的连续递增变换函数相同地被参数化。

有利地，应用所述频谱包络的频率的连续递增变换函数包括：为根据所述频谱包络的共振峰确定的一组初始频率，计算修改的频率；根据所述频谱包络的共振峰和所述修改的频率确定所述一组初始频率中的初始频率之间的线性插值。

有利地，通过将来自所述一组初始频率中的初始频率乘以乘数系数(α)来获得至少一个修改的频率。

有利地，根据所述频谱包络的共振峰确定的所述一组频率包括：根据所述声音信号的所述频谱包络的第一共振峰的频率的一半计算出的第一初始频率；根据所述声音信号的所述频谱包络的第二共振峰的频率计算出的第二初始频率；根据所述声音信号的所述频谱包络的第三共振峰的频率计算出的第三初始频率；根据所述声音信号的所述频谱包络的第四共振峰的频率计算出的第四初始频率；根据所述声音信号的所述频谱包络的第五共振峰的频率计算出的第五初始频率。

有利地，将第一修改的频率计算为等于所述第一初始频率；通过将所述第二初始频率乘以所述乘数系数来计算第二修改的频率；通过将所述第三初始频率乘以所述乘数系数来计算第三修改的频率；通过将所述第四初始频率乘以所述乘数系数来计算第四修改的频率；将第五修改的频率计算为等于所述第五初始频率。

有利地，根据当前时间帧的共振峰的频率计算每个初始频率。

有利地，对于大于或等于两个连续时间帧的数目，根据相同等级的共振峰的频率的平均值计算每个初始频率。

有利地，所述方法是用于实时修改包括语音的音频信号的方法，包括：接收音频样本；当有足够数量的样本可用于形成音频样本的时间帧时，创建所述帧；将频率变换应用于所述帧的音频样本；将声音信号的第一变换应用于频域中的至少一个时间帧。

本发明还描述了一种将微笑音色应用于语音的方法，实施用于根据本发明修改声音信号的方法，所述至少两个共振峰频率是受语音的微笑音色影响的共振峰频率。

有利地，在训练阶段期间，通过比较用户中性或微笑时所说出的音素的频谱包络，确定频谱包络的频率的所述连续递增变换函数。

本发明还描述了一种计算机程序产品，包括记录在计算机可读介质上的程序代码指令，以便当所述程序在计算机上运行时，执行所述方法的步骤。

本发明使得可以实时修改语音，以用例如微笑或紧张音色等音色来影响语音。

本发明方法不是很复杂，并可由普通计算能力实时执行。

本发明在初始语音与修改的语音之间引入了最小的延迟。

本发明产生了感知为自然的语音。

本发明可在使用不同编程语言的很多平台上实施。

【附图说明】

在根据附图阅读作为非限制性示例提供的以下详细描述时，将出现其它特征，附图示出：

图1是由实验者在微笑和不微笑的情况下说出元音'a'的频谱包络的示例；

图2是实现本发明的系统的示例；

图3a和图3b是根据本发明的两种示例性方法；

图4a和图4b是根据本发明的时间帧的频谱包络的频率的连续递增变换函数的两个示例；

图5a、图5b和图5c是根据本发明修改的元音的频谱包络的三个示例；

图6a、图6b和图6c是在微笑和不微笑发出的音素声谱图的三个示例；

图7是根据本发明的元音声谱图变换的示例；

图8示出了根据本发明的三个示例性实施例的元音声谱图变换的三个示例。

【

具体实施方式

】

图1示出由实验者微笑和不微笑说出元音'a'的频率包络的示例。

图100示出两个频谱包络：频谱包络120示出实验者在不微笑的情况下发出的元音'a'的频谱包络；频谱包络130示出同一实验者但是在微笑时说出相同的元音'a'。两个频谱包络120和130示出声音的傅立叶频谱的峰值的插值：水平轴110使用对数标度表示频率；垂直轴111表示给定频率下声音的大小。

频谱包络120包括基频F0 121和多个共振峰，包括第一共振峰F1 122、第二共振峰F2 123、第三共振峰F3 124、第四共振峰F4 125和第五共振峰F5 126。

频谱包络130包括基频F0 131和多个共振峰，包括第一共振峰F1 132、第二共振峰F2 133、第三共振峰F3 134、第四共振峰F4 135和第五共振峰F5 136。

可以注意到，尽管两个频谱包络的整体外观是相同的(这使得当用户在微笑或不微笑时发出该音素时可以识别相同的'a'音素)，但是微笑会影响共振峰的频率。实际上，微笑时发出的音素的频谱包络130的第一共振峰F1 132、第二共振峰F2 133、第三共振峰F3134、第四共振峰F4 135和第五共振峰F5 136的频率分别高于中性发出的音素的频谱包络120的第一共振峰F1 122、第二共振峰F2 123、第三共振峰F3 124、第四共振峰F4 125、第五共振峰F5 126的频率。相反，两个频谱包络的基频F0 121和131是相同的。

同时，微笑声音的频谱包络在第三共振峰F3 134的频率附近也具有更大的强度。

这些差异允许听者既识别发出的音素，又识别它是如何发出的(中性或微笑时)。

图2示出了实现本发明的系统的示例。

系统200示出了在用户240与呼叫中心代理210之间的连接的情况下本发明的示例性实施例。在该示例中，呼叫中心代理210使用连接到工作站的配备有麦克风的音频耳机进行通信。该工作站连接到服务器220，服务器220例如可以用于整个呼叫中心或一组呼叫中心代理。服务器220借助于通信链路与中继天线230通信，允许与用户240的移动电话的无线电链接。

该系统仅作为示例给出，并且可以设置其它架构。例如，用户240可以使用固定电话。呼叫中心代理也可使用连接到服务器220的电话。因此，本发明可以应用于允许用户和呼叫中心代理之间的连接的、包括至少一个服务器或工作站的所有系统架构。

呼叫中心代理210通常以中性语音说话。因此，例如服务器220或呼叫中心代理210的工作站可以应用根据本发明的方法，以实时修改呼叫中心代理的语音，并向客户240发送修改后的显得自然微笑的语音。因此，结果改善了顾客对与呼叫中心代理的交互的感觉。作为回报，顾客也会愉快地回应对他来说显得微笑的声音，这有助于客户240与呼叫中心代理210之间的交互的整体改善。

然而，本发明不限于该示例。例如，本发明可以用于中性语音的实时修改。例如，本发明可以用于给视频游戏的非玩家角色的中性声音赋予音色(紧张，微笑等)，以便给玩家一种非玩家角色正感受到情绪的感觉。基于相同的原理，本发明可以用于人形机器人说出的句子的实时修改，以便给人形机器人的用户提供后者正在经历感受的感觉，并且改善用户与人形机器人之间的交互。本发明还可以应用于在线视频游戏的玩家的声音，或者用于治疗目的，用于实时修改患者的声音，以便通过给他一种他正以微笑的语音说话的印象，来改善患者的情绪状态。

图3a和图3b示出了根据本发明的两种示例性方法。

图3a示出了根据本发明的第一示例性方法。

方法300a是用于修改声音信号的方法，并且例如可以用于将情绪分配给中性发音的音轨。情绪可以包括使语音更微笑，但也可以包括使语音较少微笑，更紧张，或者为语音分配中间情绪状态。

方法300a包括获得310声音信号的时间帧，并将时间帧变换在频域中的步骤。步骤310包括获得形成声音信号的连续时间帧。

可以以不同方式获得音频帧。例如，音频帧可以通过记录话务员对着麦克风说话、读取音频文件或例如通过连接接收音频数据来获得。

根据本发明的不同实施例，时间帧可以是固定的或可变的持续时间。例如，时间帧可以具有允许良好的频谱分析的尽可能短的持续时间，例如25ms或50ms。该持续时间有利地使得可以获得表示音素的声音信号，同时限制由声音信号的修改产生的滞后。

根据本发明的不同实施例，声音信号可以是不同类型。例如，声音信号可以是单声道信号、立体声信号或包括两个以上声道的信号。方法300a可以应用于信号的全部或一些声道。同样，可以根据不同的频率对信号进行采样，例如16000Hz，22050Hz，32000Hz，44100Hz，48000Hz，88200Hz或96000Hz。样本可以以不同方式表示。例如，样本可以是以8、12、16、24或32比特表示的声音样本。因此，本发明可以应用于任何类型的声音信号的计算机表示。

根据本发明的不同实施例，时间帧可以直接以其频率变换的形式获得，或者在时域中获得并变换到频域中。

例如，如果声音信号最初使用压缩音频格式存储或发送，压缩音频格式例如为根据MP3格式(或MPEG-1/2Audio Layer 3，Motion Picture ExpertGroup-1/2Audio Layer 3的首字母缩写)，AAC(Advanced Audio Coding的首字母缩写)，WMA(Windows Media Audio的首字母缩写)，或者音频信号存储在频域中的任何其它压缩格式，则可以例如直接在频域中获得音频信号。

还可以首先在时域中获得帧，然后将帧转换为频域。例如，可以使用麦克风，例如呼叫中心话务员210说话的麦克风，来直接记录声音。然后首先通过存储给定数量的连续样本(由帧的持续时间和声音信号的采样频率定义)，然后通过应用声音信号的频率变换来形成时间帧。频率变换例如可以是类型DFT(直接傅里叶变换)，DCT(直接余弦变换)，MDCT(修正的直接余弦变换)，或使得可以将声音样本从时域转换到频域的任何其它适当的变换。

方法300a接下来包括，针对至少一个时间帧，将声音信号的第一变换320a应用于频域。

第一变换320a包括提取330针对所述至少一帧的声音信号的频谱包络的步骤。从帧的频率变换中提取声音信号的频谱包络是本领域技术人员公知的。频率变换可以以本领域技术人员已知的许多方式完成。频率变换例如可以通过线性预测编码来完成，例如由Makhoul,J.(1975).Linear prediction:A tutorial review.Proceedings of the IEEE,63(4),561-580所描述的。频率变换也可以例如通过倒谱变换来完成，例如由

A.,Villavicencio,F.,&Rodet,X.(2007).On cepstral and all-pole based spectralenvelope modeling with unknown model order.Pattern Recognition Letters,28(11),1343-1350所描述的。也可以使用本领域技术人员已知的任何其它频率变换方法。

第一变换300a还包括计算340所述频谱包络的共振峰的频率的步骤。本发明可使用提取共振峰的很多方法。频谱包络的共振峰的频率的计算可以例如使用McCandless,S.(1974).An algorithm for automatic formant extraction using linear predictionspectra.IEEE Transactions on Acoustics,Speech,and Signal Processing,22(2),135-141描述的方法来完成。

方法300a还包括修改350声音信号的频谱包络的步骤。修改声音信号的频谱包络使得可以获得更能代表所需情绪的频谱包络。

修改350频谱包络的步骤包括：应用351频谱包络的频率的连续递增变换函数，该连续递增变换函数由频谱包络的至少两个共振峰频率参数化。

使用连续递增变换函数来修改频谱包络的频率，使得可以修改频谱包络而不会在连续频率之间产生不连续性。此外，通过至少两个共振峰频率对连续递增变换函数参数化，使得可以影响频谱的由特定共振峰的频率限定、受给定情绪影响的部分处的频谱包络的连续变换。

在本发明的一个实施例中，修改350声音信号的频谱包络的步骤还包括：对频谱包络应用352动态滤波器，所述滤波器由声音信号的频谱包络的第三共振峰F3的频率参数化。

该步骤使得可以增加或减小声音信号的频谱包络的第三共振峰F3的频率附近的信号强度，使得修改的频谱包络更接近于以期望的情绪发出的音素的频谱包络。例如，如图1所示，声音信号的频谱包络的第三共振峰F3的频率附近的声音强度的增加，使得可以获得更接近于微笑时说出的同一音素的频谱包络的频谱包络。

根据本发明的不同实施例，在该步骤中使用的过滤器可以是不同类型。例如，滤波器可以是双四极滤波器，其增益为8dB，Q＝1.2，以第三共振峰F3的频率为中心。该滤波器使得可以增加共振峰F3附近的频率的频谱的强度，从而获得更接近微笑说话者会获得的频谱包络的频谱包络。

一旦频谱包络被修改，频谱包络就可以应用于声谱。许多其它实施例可以将频谱包络应用于声谱。例如，可以将频谱的每个分量乘以包络的对应值，例如Luini M.et al.(2013).Phase vocoder and beyond.Musica/Tenologia,August 2013,Vol.7,no.2013,p.77-89所描述的。

一旦声谱被重构，根据本发明的不同实施例，可以对帧应用不同的处理。在本发明的某些实施例中，可以将反向频率变换直接应用于声音帧，以便重建音频信号并直接收听该音频信号。这例如使得可以收听视频游戏的修改的非玩家角色的语音。

还可以发送修改的声音信号，以便由第三方用户收听。例如，这是与呼叫中心运营商呼叫中心相关的实施例的情况。在这种情况下，声音信号可以以原始或压缩形式，在频域中或在时域中发送。

在本发明的一些实施例中，方法300a可用于实时修改包括语音的音频信号，以便将情绪分配给中性语音。这种实时修改可以例如通过以下方式完成：

接收例如由麦克风实时记录的音频样本；

当足够数量的样本可用于形成时间帧时，创建音频样本的所述帧；

将频率变换应用于所述帧的音频样本；

将声音信号的第一变换320a应用于频域中的至少一个变换帧。

该方法使得可以实时地将表情应用于中性语音。用于创建帧(或窗口化)的步骤包括方法执行中的滞后，这是因为只有在接收到帧的所有样本时才能处理音频样本。然而，该滞后仅取决于时间帧的持续时间，并且可以很小，例如，如果时间帧具有50ms的持续时间。

本发明还涉及一种计算机程序产品，包括记录在计算机可读介质上的程序代码指令，以便当所述程序在计算机上运行时，执行根据本发明的不同实施例的方法300a或任何其它方法。所述计算机程序可以例如在呼叫中心话务员210的工作站上或在服务器220上存储和/或运行。

图3b示出了根据本发明的第二示例性方法。

方法300b也是用于修改声音信号的方法，使得可以根据时间帧包含的信息的类型对时间帧进行不同处理。

为此，方法300b包括根据包括至少一种浊音帧类别和一种非浊音帧类别的一组时间帧类别对时间帧进行分类360的步骤。

该步骤使得可以将每个帧与类别相关联，并根据帧所属的类别来调整帧的处理。时间帧可以例如，如果它包括元音，则属于浊音帧类别，并且如果它不包括元音，例如，如果它包括辅音，则属于非浊音帧类别。存在用于确定时间帧的浊音或非浊音性质的不同方法。例如，可以计算帧的ZCR(Zero Crossing Rate的首字母缩写)，并将其与阈值进行比较。如果ZCR低于阈值，则帧将被视为非浊音，否则为浊音。

方法300b包括：针对每个浊音帧，在频域中应用声音信号的第一变换320a。参考图3a讨论的本发明的所有实施例可以在方法300b的上下文中应用于第一变换320a。

方法300b包括，针对每个非浊音帧，在频域中应用声音信号的第二变换320b。

频域中声音信号的第二变换320b包括：应用滤波器以增加声音信号370的以频率，例如预定频率，为中心的能量的步骤。在一个实施例中，该滤波器是双四极滤波器，其增益为8dB，Q＝1，以中高/锐频率，例如6000Hz，为中心。

该特征使得可以通过对非浊音帧应用变换来优化音频信号的变换，对于该非浊音帧，频谱包络不具有共振峰。

在本发明的一个实施例中，声音信号的第二变换320b还包括：用于针对所讨论的帧提取声音信号的频谱包络的步骤330，以及用于应用351b频谱包络的频率的连续递增变换函数的步骤。

用于应用频谱包络的频率的连续递增变换函数的步骤351b与紧接在前的时间帧的频谱包络的频率的连续递增变换函数相同地被参数化。因此，在本发明的该实施例中，如果浊音帧紧接着是非浊音帧，则根据浊音帧的频谱包络的共振峰的频率来参数化包络的频率的连续递增变换函数，然后根据相同的参数将连续递增变换函数应用于紧随其后的非浊音帧。如果几个非浊音帧跟随浊音帧，则根据相同参数的相同变换函数可以应用于连续的非浊音帧。

该特征使得可以应用非浊音帧的频谱包络的频率的变换函数，即使非浊音帧不包括共振峰，同时受益于与在前浊音帧尽可能相一致的变换。

图4a和4b示出了根据本发明的时间帧的频谱包络的频率的连续递增变换函数的两个示例。

图4a示出了根据本发明的时间帧的频谱包络的频率的第一示例连续递增变换函数。

函数400a将在x轴401上示出的修改的频谱包络的频率定义为在y轴402上示出的初始频谱包络的频率的函数。因此，该函数使得可以构建修改的频谱包络如下：修改的频谱包络的每个频率的强度等于由函数指示的初始频谱包络的频率的强度。例如，修改的频谱包络的频率411a的强度等于初始频谱包络的频率410a的强度。

在本发明的一组实施例中，频率的变换函数定义如下：

针对一组初始频率的每个初始频率计算修改的频率。在函数400a的示例中，分别对应于初始频率410a、420a、430a、440a和450a计算修改的频率411a、421a、431a、441a和451a；

接下来，在从频谱包络的共振峰和修改的频率确定的所述一组初始频率的初始频率之间进行线性插值。例如，线性插值460使得可以针对第一初始频率410a与第二初始频率420a之间的每个初始频率线性地定义第一修改的频率411a与第二修改的频率421a之间的修改的频率。

类似地：

线性插值461使得可以针对第二初始频率420a与第三初始频率430a之间的每个初始频率线性地定义第二修改的频率421a与第三修改的频率431a之间的修改的频率；

线性插值462使得可以针对第三初始频率430a与第四初始频率440a之间的每个初始频率线性地定义第三修改的频率431a与第四修改的频率441a之间的修改的频率；

线性插值463使得可以针对第四初始频率440a与第五初始频率450a之间的每个初始频率线性地定义第四修改的频率441a与第五修改的频率451a之间的修改的频率。

可以以不同方式计算修改的频率。其中一些修改的频率可以等于初始频率。一些修改的频率例如可以通过将初始频率乘以乘数系数α来获得。这使得可以根据乘数系数α是大于还是小于1来获得高于或低于初始频率的修改的频率。通常，高于相应初始频率(α>1)的修改的频率与更快乐或微笑的语音相关联，而低于相应初始语音(α<1)的修改的频率与更紧张或更少微笑的语音相关联。通常，乘数系数α的值与1差别越大，所应用的效果越明显。因此，系数α的值使得不仅可以定义要应用于语音的变换，还可以定义该变换的显著性。

在本发明的一组实施例中，用于参数化变换函数的初始频率如下：

从声音信号的频谱包络的第一共振峰(F1)的频率的一半计算出的第一初始频率(410a)；

根据声音信号的频谱包络的第二共振峰(F2)的频率计算出的第二初始频率(420a)；

根据声音信号的频谱包络的第三共振峰(F3)的频率计算出的第三初始频率(430a)；

根据声音信号的频谱包络的第四共振峰(F4)的频率计算出的第四初始频率(440a)；

根据声音信号的频谱包络的第五共振峰(F5)的频率计算出的第五初始频率(450a)。

频谱包络的低于第一初始频率410a和高于第五初始频率450a的频率，因此没有被修改。这使得可以将频率的变换限制到与受到语音的时态或微笑音色影响的共振峰相对应的频率，并且例如不修改基频F0。

在本发明的一个实施例中，初始频率对应于当前时间帧的共振峰的频率。因此，针对每个时间帧修改变换函数的参数。

对于大于或等于两个连续时间帧的数目，初始频率也可以被计算为相等等级的共振峰的频率的平均值。例如，第一初始频率410a可以被计算为n个连续时间帧的频谱包络的第一共振峰F1的频率的平均值，其中n≥2。

在本发明的一组实施例中，频率变换主要应用在第二共振峰F2与第四共振峰F4之间。因此可以如下计算修改的频率：

将第一修改的频率411a计算为等于第一初始频率410a；

通过将第二初始频率420a乘以乘数系数α来计算第二修改的频率421a；

通过将第三初始频率430a乘以乘数系数α来计算第三修改的频率431a；

通过将第四初始频率440a乘以乘数系数α来计算第四修改的频率441a；

将第五修改的频率451a计算为等于第五初始频率450a。

示例变换函数400a使得可以变换时间帧的频谱包络而获得更微笑的声音，这得益于特别是在第二共振峰F2与第四共振峰F4之间更高的频率。

在一个实施例中，乘数系数α是预定义的。例如，乘数系数α可以等于1.1(频率增加10％)。

在本发明的一些实施例中，乘数系数α可以取决于要生成的语音的修改强度。

在本发明的一些实施例中，还可以为给定用户确定乘数系数α。例如，可以在训练阶段期间确定，在此期间用户以中性语音发出音素，然后是微笑语音。针对以中性语音和微笑语音发出的音素，比较不同共振峰的频率，由此可以计算适合于给定用户的乘数系数α。

在本发明的一组实施例中，系数α的值取决于音素。在本发明的这些实施例中，根据本发明的方法包括用于检测当前音素的步骤，并且针对当前帧定义系数α的值。例如，可以在训练阶段期间针对给定音素确定α的值。

图4b示出了根据本发明的时间帧的频谱包络的频率的第二示例连续递增变换函数。

图4b示出了第二函数400b，使得可以给予语音更紧张或更微笑的音色。

图4b的图示与图4a的图示相同：修改的频谱包络的频率在x轴401上示出，作为在y轴402上示出的初始频谱包络的频率的函数。

函数400b也通过针对每个初始频率410b、420b、430b、440b、450b计算修改的频率411b、421b、431b、441b、451b，然后在初始频率与修改的频率之间定义线性插值460b、461b、462b和463b来建立。

在函数400b的示例中，修改的频率411b和451b等于初始频率410b和450b，而修改的频率421b、431b和441b通过将初始频率420b、430b和440b乘以因子α<1获得。因此，由函数400b修改的频谱包络的第二共振峰F2、第三共振峰F3和第四共振峰F4的频率将比初始频谱包络的相应共振峰的频率更严肃。这使得可以给语音紧张的音色。

函数400a和400b仅作为示例给出。从包络的共振峰的频率参数化的频谱包络的频率的任何连续递增函数都可以用在本发明中。例如，基于与语音的微笑性质相关的共振峰的频率定义的函数特别适于本发明。

图5a、图5b和图5c示出了根据本发明修改的元音的频谱包络的三个示例。

图5a示出了由实验者中性地说出的音素'e'的频谱包络510a，以及由实验者以微笑方式说出的相同音素'e'的频谱包络520a。图5a还示出了通过根据本发明的方法修改以使语音更加微笑的频谱包络530a。因此，频谱包络530a示出了将根据本发明的方法应用于频谱包络510a的结果。

图5b示出了由实验者中性地说出的音素'a'的频谱包络510b，以及由实验者以微笑方式说出的相同音素'a'的频谱包络520b。图5b还示出了通过根据本发明的方法修改以使语音更加微笑的频谱包络530b。因此，频谱包络530b示出了将根据本发明的方法应用于频谱包络510b的结果。

图5c示出了由第二实验者中性地说出的音素'e'的频谱包络510c，以及由第二实验者以微笑方式说出的相同音素'e'的频谱包络520c。图5c还示出了通过根据本发明的方法修改以使语音更加微笑的频谱包络530c。因此，频谱包络530c示出了将根据本发明的方法应用于频谱包络510c的结果。

在该示例中，根据本发明的方法包括应用函数400a以转换图4a中所示的频率，以及应用以包络的第三共振峰F3的频率为中心的双四元滤波器。

图5a、图5b和图5c示出了根据本发明的方法使得可以保持音素的包络的整体形状，同时修改某些共振峰的位置和振幅，以便模拟显得微笑的声音，同时保持自然。

更特别值得注意的是，根据本发明的方法允许根据本发明变换的频谱包络非常类似于微笑声音的频谱包络，对于频谱的中高频的频率，分别由相似曲线521a和531a、521b和531b、521c和531c所示。

图6a、图6b和图6c示出了微笑和不微笑发出的音素的频谱图的三个示例。

图6a示出了中性发出的'a'音素的频谱图610a，以及应用了本发明以使声音更加微笑的相同'a'音素的频谱图620a。图6b示出了中性发出的'e'音素的频谱图610b，以及应用了本发明以使语音更加微笑的相同'e'音素的频谱图620b。图6c示出了中性发出的'i'音素的频谱图610c，以及应用了本发明以使语音更加微笑的相同'i'音素的频谱图620c。

每个频谱图示出了不同频率的声音强度随时间的演变，如下所示：

横轴表示时间，在音素的用语内；

纵轴表示不同的频率；

对于给定的时间和频率，声音强度由相应的灰度级表示：白色表示零强度，而深灰色表示相应时间处的频率的高强度。

通常可以观察到，根据图1中所示的频谱包络，相比于中性声音，在微笑声音的情况下，能量通常在频谱的中高频中增加：人们可以因此看到，如频谱的中高频中的声音强度的增加，如分别在区域611a和621a之间、611b和621b之间、611c和621c之间。

图7示出了根据本发明的元音频谱图变换的示例。

图7示出了中性发出的'i'音素的频谱图710，以及应用了本发明以使语音更加微笑的相同'i'音素的频谱图720。

根据与图6a至6c相同的图示，每个频谱图示出了不同频率的强度随时间的演变。

一般来说，可以观察到，根据图5a至5c所示的频谱包络，声音强度通常在频谱的中高频中增加：因此，人们可以在频谱的中高频看到声音强度的增加，如区域711和721之间所示。因此，微笑的语音效果类似于图6a至6c所示的真实微笑的效果。

图8示出了根据本发明的三个示例性实施例的元音频谱图变换的三个示例。

在本发明的一组实施例中，乘数系数α的值可以随时间修改，例如以模拟语音音色的逐渐修改。例如，乘数系数α的值可以增加，以给出越来越微笑的语音的印象，或者减小以便给出越来越紧张的语音的印象。

频谱图810表示用中性音调发出并由本发明已恒定乘数系数α修改的元音的频谱图。频谱图820表示用中性音调发音并由本发明以减小的乘数系数α修改的元音的频谱图。频谱图830表示用中性音调发音并由本发明以增加的乘数系数α修改的元音的频谱图。

可以观察到在这些不同示例中随时间修改的频谱图的演变是不同的：在减小乘数系数α的情况下，频谱的中高频中的频率强度逐渐增加821，然后减小822。相反，在增加乘数系数α的情况下，频谱的中高频中的频率强度逐渐减小831，然后增加832。

该示例展示了根据本发明的方法调整频谱包络的变换以便实时产生效果，例如产生更多或更少微笑的语音的能力。

以上示例说明了本发明以合理的计算复杂度为语音分配音色的能力，同时确保修改的语音显得自然。然而，它们仅作为示例提供，并且决不限制以下在权利要求中限定的本发明的范围。

27页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于网格偏移方法的联合宽带源定位和获取

通过频谱包络共振峰的频移动态修改语音音色的方法和装置

相关技术

网友询问留言