语音模型训练数据集构建方法及装置

文档序号：50784 发布日期：2021-09-28 浏览：38次 >En<

阅读说明：本技术 语音模型训练数据集构建方法及装置 (Method and device for constructing voice model training data set ) 是由马明刘宇于 2021-06-23 设计创作，主要内容包括：本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括：获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。(The embodiment of the application provides a method and a device for constructing a speech model training data set, wherein the method comprises the following steps: and after obtaining the polyphone sample and the non-polyphone sample, respectively performing vector representation on the polyphone sample and the non-polyphone sample. And further carrying out repeated sampling processing on the polyphone sample vector representation, and constructing a new polyphone sample vector representation according to the polyphone sample vector representation subjected to repeated sampling. And finally, combining the polyphone sample vector characterization, the new polyphone sample vector characterization and the non-polyphone sample vector characterization to obtain a constructed speech model training data set. The method for constructing the voice model training data set and the device for extracting the same can increase the polyphone sample vector representation in the voice model training data set, avoid the condition that polyphone training samples and non-polyphone training samples are unbalanced in distribution, further improve the conversion accuracy of the trained voice model and improve the use experience of a user.)

语音模型训练数据集构建方法及装置

技术领域

本申请涉及语音交互

技术领域

，尤其涉及一种语音模型训练数据集构建方法及装置。

背景技术

随着人工智能在语音交互领域的发展，智能设备可将用户输入的文本转化为音频。

目前有大量的基于深度学习的端对端文本转音频的语音模型。用给定的数据集训练这些语音模型之后，再将需要转化的文本输入训练之后的语音模型，就能够得到对应的音频。

然而，在文本转音频的过程中，核心难点在于多音字的发音问题。而由于多音字数据在日常生活中的使用比例不高，用于对语音模型进行训练的训练样本中，多音字训练样本较少，多音字训练样本和非多音字训练样本分布不平衡。因此，使用现有训练数据集训练得到的语音模型进行文本转音频操作时，容易将多音字预测为非多音字，转化准确率较低，最终造成用户使用体验较差。

发明内容

本申请提供了一种语音模型训练数据集构建方法及装置，用于解决使用现有训练数据集训练得到的语音模型进行文本转音频操作时，容易将多音字预测为非多音字，转化准确率较低，最终造成用户使用体验较差的问题。

第一方面，本申请实施例提供一种语音模型训练数据集构建方法，该方法包括：

获取语音模型训练样本集，其中，所述语音模型训练样本集包括多音字样本和非多音字样本，所述多音字样本为至少包含一个中文多音字的句子，所述非多音字样本为不包含中文多音字的句子，所述非多音字样本的数量多于所述多音字样本的数量；

对所述多音字样本和所述非多音字样本进行向量表征，得到对应的多音字样本向量表征和非多音字样本向量表征；

对所述多音字样本向量表征进行重复采样处理，以及根据重复采样的所述多音字样本向量表征构建新的样本，得到新的所述多音字样本向量表征；

将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后，得到构建的语音模型训练数据集。

第二方面，本申请实施例提供一种语音模型训练数据集构建装置，该装置包括：

语音模型训练样本集获取单元，用于执行：获取语音模型训练样本集，其中，所述语音模型训练样本集包括多音字样本和非多音字样本，所述多音字样本为至少包含一个中文多音字的句子，所述非多音字样本为不包含中文多音字的句子，所述非多音字样本的数量多于所述多音字样本的数量；

向量表征单元，用于执行：对所述多音字样本和所述非多音字样本进行向量表征，得到对应的多音字样本向量表征和非多音字样本向量表征；

重采样单元，用于执行：对所述多音字样本向量表征进行重复采样处理；

新数据生成单元，用于执行：根据重复采样的所述多音字样本向量表征构建新的样本，得到新的所述多音字样本向量表征；

数据合并单元，用于执行：将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后，得到构建的语音模型训练数据集。

本申请提供的技术方案包括以下有益效果：获取多音字样本和非多音字样本后，对多音字样本和非多音字样本分别向量表征，得到多音字样本向量表征和非多音字样本向量表征。进一步对多音字样本向量表征进行重复采样处理，根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征，新的多音字样本向量表征以及非多音字样本向量表征，得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置，能够增加语音模型训练数据集中多音字样本向量表征，避免多音字训练样本和非多音字训练样本分布不平衡的情况，进而提升被训练语音模型的转化准确率，提升用户使用体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种语音模型训练数据集构建方法流程示意图；

图2示出了本申请实施例提供的句子表征方法流程示意图；

图3示出了本申请实施例提供的少数类样本K近邻获取方法示意图；

图4示出了本申请实施例提供的新样本构建方法示意图；

图5示出了本申请实施例提供的一种语音模型训练数据集构建装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书通篇提及的″多个实施例″、″一些实施例″、″一个实施例″或″实施例″等，意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此，本说明书通篇出现的短语″在多个实施例中″、″在一些实施例中″、″在至少另一个实施例中″或″在实施例中″等并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、结构或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。

随着人工智能在语音交互领域的发展，智能设备可将用户输入的文本转化为音频。目前有大量的基于深度学习的端对端文本转音频的语音模型。用给定的数据集训练这些语音模型之后，再将需要转化的文本输入训练之后的语音模型，就能够得到对应的音频。

为了解决上述问题，本申请提供一种语音模型训练数据集构建方法，该方法能够增加语音模型训练数据集中多音字样本向量表征，避免多音字训练样本和非多音字训练样本分布不平衡的情况，进而提升被训练语音模型的转化准确率，提升用户使用体验。

如图1的语音模型训练数据集构建方法的流程示意图，该方法包括以下步骤：

步骤S101，获取语音模型训练样本集。

获取的语音模型训练样本集的来源可以是网络，语音模型训练样本集中包括多音字样本和非多音字样本。多音字样本为至少包括一个中文多音字的句子，非多音字样本为不包括中文多音字的句子。多音字样本中包括的中文多音字可以是经过统计得到的中文中常见的多音字，例如″单″、″折″、″着″等。也可以是根据常见的多音字，查找包括这些常见多音字的句子，作为多音字样本。

由于多音字在日常生活中的使用比例相对于其他非多音字在日常生活中的使用比例较低，因此获取到的语音模型训练样本集中的非多音字样本的数量多于多音字样本的数量。

步骤S102，对步骤S102得到的非多音字样本和多音字样本进行向量表征，得到对应的多音字样本向量表征和非多音字样本向量表征；

在一些实施例中，非多音字样本和多音字样本均为句子样本，因此对样本进行向量表征，实际上是对句子进行向量表征。如图2所示，对句子样本进行向量表征的具体步骤可以包括：

首先是对句子样本进行词分割处理和字分割处理。这个过程可以利用分词工具进行，例如LAC分词工具，本申请对于词分割处理和字分割处理所使用的工具不作限制。

句子样本经过词分割处理后的，得到多个词语，例如″我想看电影″，分词结果为″我，想看，电影″。句子样本经过字分割处理后的，得到多个字，例如″我想看电影″，分字结果为″我，想，看，电，影″。

接着将句子样本的多个词语输入词向量表征模型，例如输入谷歌的BERT模型，本申请对于具体使用词向量模型不作限制。从词向量表征模型输出句子样本的每个词语的向量表征。之后对该句子样本的所有词语的向量表征求平均值，得到该句子样本的词向量均值表征。

例如，上述实施例的分词结果″我，想看，电影″，将该分词结果输入词向量表征模型，得到每个词语的向量表征：″我″为w1，″想看″为w2，″电影″为w3。则该句子样本的词向量均值表征w＝(w1+w2+w3)/3。

接着从字向量库获取句子样本中每个字的向量表征。之后对该句子样本的所有字的向量表征求平均值，得到该句子样本的字向量均值表征。

例如，上述实施例的分字结果″我，想，看，电，影″，从字向量库获取每个字的向量表征：″我”为c1，″想”为c2，″看”为c3，″电”为c4，″影″为c5。则该句子样本的字向量均值表征C＝(c1+c2+c3+c4+c5)/5。

最后拼接该句子样本的词向量均值表征和字向量均值表征，得到句子样本向量表征。多音字样本和非多音字样本均经过上述向量表征步骤，则得到对应的多音字样本向量表征和非多音字样本向量表征。

例如，拼接句子样本″我想看电影″的句子样本的词向量均值表征w和字向量均值表征C。如果w为1*300维度的向量，C为1*100维度的向量，则最后拼接得到的句子样本向量表征为1＊400维度的向量。

步骤S103为增加多音字样本数据的过程，具体包括：

步骤S301、对步骤S102中得到的多音字样本向量表征进行重复采样。

重复采样即过采样，指对少量样本数据进行重复采样，已达到多类别样本数据平衡的方法。重复的采样的过程为首先对多音字样本向量表征和非多音字样本向量表征进行编号。之后只对多音样本向量表征的编号进行重复采样，直至多音字样本向量表征与非多音字样本向量表征的比例达到阈值T。其中，T根据经验可以设置为1：2。

步骤S302、在重复采样的过程中，每次采样，都对采样得到的多音字样本向量表征构建新的多音字样本向量表征。

在一些实施例中，构建新的多音字样本向量表征的过程，可以采用SMOTE算法。即利用SMOTE算法，随机对已经存在的向量数据，进行新向量数据的生成。

具体的首先采用最邻近算法，计算出每个少数类样本(多音字样本向量表征)的K个近邻。如图3所示的少数类样本K个近邻获取示意图。图3中的圆点代表的样本数量较多，代表多数类样本，即非多音字样本向量表征。而图3中的五角星代表的样本数量较少，代表少数类样本，即多音字样本向量表征。

K近邻指的是，在特征空间中，如果一个样本附近的K个最近样本的大所述都属于某个类别，则该样本也属于这个类别。之后根据多音字样本向量表征和非多音字样本向量表征的不平衡比例设置采样比例，以确定采样倍率N。对于每一个多音字样本向量表征x_i，从其k近邻中随机选择若干个样本，假设选择的近邻为根据随机选择的近邻和多音字样本向量表征x_i，按照如下公式构建新的样本，即新的多音字样本向量表征，如图4所示的新样本构建示意图。

按照采样倍率经过N次上述构建新的样本的过程，得到多个新的多音字样本向量表征。

步骤S104、经过上述步骤得到非多音字样本向量表征、多音字样本向量表征以及新的多音字样本向量表征，将这些数据合并后，得到构建的语音模型训练数据集。

经过步骤S101至步骤S104得到语音模型训练数据集，相比较与原有的语音模型训练样本集，增加了多音字样本向量表征，能够避免多音字训练样本和非多音字训练样本分布不平衡的情况。利用该语音模型训练数据集训练得到的语音模型，能够提升文字转化为音频的准确率，提升用户使用体验。

在一些实施例中，在构建完成语音模型训练数据集之后，可以将所有的数据进行随机打乱后，使用批量训练的方式，将数据输入到搭建好的深度学习模型。深度学习模型可以使用双向LSTM编码，然后经过全链接层，得到损失函数后，使用反向传播进行梯度更新，最后得到训练好的模型并保存。

本申请实施例提供一种语音模型训练数据集构建装置，用于执行图1对应的实施例，如图5所示，本申请提供的语音模型训练数据集构建装置包括：

语音模型训练样本集获取单元201，用于执行：获取语音模型训练样本集，其中，所述语音模型训练样本集包括多音字样本和非多音字样本，所述多音字样本为至少包含一个中文多音字的句子，所述非多音字样本为不包含中文多音字的句子，所述非多音字样本的数量多于所述多音字样本的数量；

向量表征单元202，用于执行：对所述多音字样本和所述非多音字样本进行向量表征，得到对应的多音字样本向量表征和非多音字样本向量表征；

重采样单元203，用于执行：对所述多音字样本向量表征进行重复采样处理；

新数据生成单元204，用于执行：根据重复采样的所述多音字样本向量表征构建新的所述多音字样本向量表征；

数据合并单元205，用于执行：将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后，得到构建的语音模型训练数据集。

在一些实施例中，所述向量表征单元202，具体用于执行：对所述句子样本进行词分割处理和字分割处理；

将词分割处理后的所述句子样本输入词向量表征模型，得到所述句子样本中每个词的向量表征，以及所述每个词的向量表征求均值，得到所述句子样本的词向量均值表征；

从字向量库获取所述句子样本中每个字的向量表征，以及将每个字的向量表征求均值，得到所述句子样本的字向量均值表征；

拼接所述句子样本的所述词向量均值表征和所述句子样本的所述字向量均值表征，得到句子样本向量表征，其中，所述句子样本向量表征为所述多音字样本向量表征或所述非多音样本向量表征中其中一种。

在一些实施例中，新数据生成单元204，具体用于执行：利用SMOTE算法根据重复采样的所述多音字样本向量表征构建新的样本。

以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的，当然不可能描述组件或方法的每一个可设想组合，但是要意识到，本创新的许多另外组合和置换是可能的。相应地，要求保护主题打算包含全部这类改变、修改和变化，其落入所附权利要求的精神和范围之内。此外，包括″摘要″中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例，但是如相关领域的技术人员能够认识的，被认为在这类实现和示例的范围之内的各种修改是可能的。

此外，词语″示例″或″示范″在本申请中用来表示″用作示例、实例或说明″。本申请中描述为″示范″的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反，词语″示例″或″示范″的使用打算以具体方式呈现概念。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种听觉感知响度空间Lombard效应分类方法

语音模型训练数据集构建方法及装置

相关技术

网友询问留言