语料降噪方法及装置、电子设备和存储介质

文档序号：193374 发布日期：2021-11-02 浏览：29次 >En<

阅读说明：本技术 语料降噪方法及装置、电子设备和存储介质 (Corpus noise reduction method and device, electronic equipment and storage medium ) 是由牛海波于 2021-07-27 设计创作，主要内容包括：本公开是关于一种语料降噪方法及装置、电子设备和存储介质。该方法包括：获取初始语料集合的估计标签分布；根据所述估计标签分布获取置信矩阵,所述置信矩阵用于描述类别条件下的标签噪声分布；基于所述置信矩阵获取所述初始语料集合中的噪声语料；处理所述初始语料集合中的噪声语料,获得目标语料集合。本实施例中可以通过标签的预测概率和标注标签来建立置信矩阵,并通过置信矩阵来识别出初始语料集合中的噪声语料,在对噪声语料处理后,可以减少目标语料中噪声语料所占的比例和歧义信息,使目标语料的边界更清晰,减少垂域模型的训练次数,进而减少训练所需要的计算资源和消耗时长,有利于提升训练效率。(The disclosure relates to a corpus noise reduction method and device, electronic equipment and a storage medium. The method comprises the following steps: obtaining the estimated label distribution of the initial corpus set; obtaining a confidence matrix according to the estimated label distribution, wherein the confidence matrix is used for describing label noise distribution under the class condition; acquiring noise corpora in the initial corpus set based on the confidence matrix; and processing the noise linguistic data in the initial linguistic data set to obtain a target linguistic data set. In the embodiment, a confidence matrix can be established through the prediction probability of the tag and the label tag, the noise corpus in the initial corpus set is identified through the confidence matrix, and after the noise corpus is processed, the proportion and ambiguity information of the noise corpus in the target corpus can be reduced, so that the boundary of the target corpus is clearer, the training times of a vertical domain model are reduced, further the calculation resources and the consumed time required by training are reduced, and the training efficiency is favorably improved.)

语料降噪方法及装置、电子设备和存储介质

技术领域

本公开涉及语料降噪技术领域，尤其涉及一种语料降噪方法及装置、电子设备和存储介质。

背景技术

随着智能语音助手的语义理解能力的提高，已经成为人机智能交互的重要应用。现有智能语音助手通常采用多垂域竞争的方式来实现智能服务，即智能语音助手向多个预设的垂域服务模型发起请求，各个垂域服务模型解析上述请求，并将所提供的服务反馈给智能语音助手，以及告知其所提供服务的置信度；智能语音助手将置信度最高的服务反馈给用户。因此各个垂域服务模型所提供的服务质量就显示的尤为重要。实际应用中，影响各个垂域服务模型所提供服务质量的原因包括用于训练该垂域服务模型的垂域语料质量。

实际应用中，垂域服务模型语料来源多样，不同应用场景的表达方式存在较大差异，容易引入噪声数据；当某个垂域的语义较为丰富时，会存在语义边界模糊而伴随歧义信息，导致标注准确度下降；标注人员对语料的理解存在差异，导致标注过程引入噪声。因此，需要提供一种获取高质量垂域语料的方法。

发明内容

本公开提供一种语料降噪方法及装置、电子设备和存储介质，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种语料降噪方法，所述方法包括：

获取初始语料集合的估计标签分布；

根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布；

基于所述置信矩阵获取所述初始语料集合中的噪声语料；

处理所述初始语料集合中的噪声语料，获得目标语料集合。

可选地，获取初始语料集合的估计标签分布，包括：

将所述初始语料集合划分为K个子集，并依次将所述K个子集中各子集作为验证集且其他子集作为训练集；K为正整数；

依次利用所述训练集对预设的垂域语料降噪模型进行训练获得训练后的垂域语料降噪模型，以及利用所述训练后的垂域语料降噪模型获取所述验证集的估计标签分布，得到K个估计标签分布；

拼接K个估计标签分布获得所述初始语料集合的估计标签分布；所述估计标签分布用于近似表示所述初始语料集合的无损标签分布。

可选地，各子集中语料的标签分布与所述初始语料集合中语料的标签分布相同。

可选地，根据所述估计标签分布获取置信矩阵，包括：

从所述估计标签分布内获取各个标签的预测概率；所述估计标签分布包括所述初始语料集合中各个语料被估计为各个标签的预测概率；

计算各个标签的预测概率的平均值，并将所述平均值作为所述各个标签的自信度；

针对所述各个语料，获取预测概率满足预设自信度条件的标签；所述预设自信度条件是指预测概率需要是超过标签自信度的最大预测概率；

统计所述初始语料集合中满足预设自信度条件的标签类别下语料的数量；

基于所述数量构建置信矩阵；所述置信矩阵中所有元素之和为1。

可选地，基于所述数量构建置信矩阵，包括：

将各个标签作为已知的标注标签和未知的无损标签，构建用于近似标注标签和无损标签之间联合分布的初始置信矩阵；所述初始置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为标签y_m的语料数量；

基于所述初始语料集合中各个标签类别下语料的总数对所述初始置信矩阵中元素进行类别归一化处理，获得类别归一化置信矩阵；

对所述类别归一化置信矩阵中元素进行整体归一化处理，获得最终的置信矩阵；所述归一化处理包括针对各个类别的归一化处理和整体归一化处理；所述最终的置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为y_m的语料数量的归一化值；所述最终的置信矩阵中所有元素之和为1。

可选地，基于所述置信矩阵获取所述初始语料集合中的噪声语料，包括：

获取所述置信矩阵中非对角且非零元素对应的语料，得到高噪声语料集合；

从所述高噪声语料集合中获取满足标注标签为y_n且预测概率超过标签y_m自信度的语料，所述语料构成高噪声语料子集合Snm；其中y_n与y_m不相等；

将所述高噪声语料子集合Snm中各个语料按照预测概率进行排序；

从预测概率最小的语料开始，筛选所述高噪声语料子集合Snm的语料，将所述语料作为初始语料集合中的噪声语料；所述噪声语料的数量为预设的降噪比例、所述高噪声语料集合中语料的数量和所述置信矩阵中目标元素的乘积；所述目标元素是指所述置信矩阵中标注标签为y_n且预测为标签y_m时对应的数量。

可选地，处理所述初始语料集合中的噪声语料，包括：

从所述初始语料集合中剔除所述噪声语料；

或者，修正所述初始语料集合中噪声语料的错误标签。

可选地，所述初始语料集合中包含噪声的语料的占比不超过50％。

根据本公开实施例的第二方面，提供一种语料降噪装置，所述装置包括：

标签分布获取模块，用于获取初始语料集合的估计标签分布；

置信矩阵获取模块，用于根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布；

噪声语料获取模块，用于基于所述置信矩阵获取所述初始语料集合中的噪声语料；

噪声语料处理模块，用于处理所述初始语料集合中的噪声语料，获得目标语料集合。

可选地，所述标签分布获取模块包括：

子集获取单元，用于将所述初始语料集合划分为K个子集，并依次将所述K个子集中各子集作为验证集且其他子集作为训练集；K为正整数；

分布获取单元，用于依次利用所述训练集对预设的垂域语料降噪模型进行训练获得训练后的垂域语料降噪模型，以及利用所述训练后的垂域语料降噪模型获取所述验证集的估计标签分布，得到K个估计标签分布；

分布拼接单元，用于拼接K个估计标签分布获得所述初始语料集合的估计标签分布；所述估计标签分布用于近似表示所述初始语料集合的无损标签分布。

可选地，各子集中语料的标签分布与所述初始语料集合中语料的标签分布相同。

可选地，所述置信矩阵获取模块包括：

概率获取单元，用于从所述估计标签分布内获取各个标签的预测概率；所述估计标签分布包括所述初始语料集合中各个语料被估计为各个标签的预测概率；

平均值计算单元，用于计算各个标签的预测概率的平均值，并将所述平均值作为所述各个标签的自信度；

标签获取单元，用于针对所述各个语料，获取预测概率满足预设自信度条件的标签；所述预设自信度条件是指预测概率需要是超过标签自信度的最大预测概率；

数量统计单元，用于统计所述初始语料集合中满足预设自信度条件的标签类别下语料的数量；

矩阵构建单元，用于基于所述数量构建置信矩阵；所述置信矩阵中所有元素之和为1。

可选地，所述矩阵构建单元包括：

初始矩阵构建子单元，用于将各个标签作为已知的标注标签和未知的无损标签，构建用于近似标注标签和无损标签之间联合分布的初始置信矩阵；所述初始置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为标签y_m的语料数量；

类别归一化子单元，用于基于所述初始语料集合中各个标签类别下语料的总数对所述初始置信矩阵中元素进行类别归一化处理，获得类别归一化置信矩阵；

整体归一化子单元，用于对所述类别归一化置信矩阵中元素进行整体归一化处理，获得最终的置信矩阵；所述归一化处理包括针对各个类别的归一化处理和整体归一化处理；所述最终的置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为y_m的语料数量的归一化值；所述最终的置信矩阵中所有元素之和为1。

可选地，所述噪声语料获取模块包括：

集合获取单元，用于获取所述置信矩阵中非对角且非零元素对应的语料，得到高噪声语料集合；

子集获取单元，用于从所述高噪声语料集合中获取满足标注标签为y_n且预测概率超过标签y_m自信度的语料，所述语料构成高噪声语料子集合Snm；其中y_n与y_m不相等；

语料排序单元，用于将所述高噪声语料子集合Snm中各个语料按照预测概率进行排序；

语料筛选单元，用于从预测概率最小的语料开始，筛选所述高噪声语料子集合Snm的语料，将所述语料作为初始语料集合中的噪声语料；所述噪声语料的数量为预设的降噪比例、所述高噪声语料集合中语料的数量和所述置信矩阵中目标元素的乘积；所述目标元素是指所述置信矩阵中标注标签为y_n且预测为标签y_m时对应的数量。

可选地，所述噪声语料处理模块包括：

语料剔除单元，用于从所述初始语料集合中剔除所述噪声语料；

或者，

语料修正单元，用于修正所述初始语料集合中噪声语料的错误标签。

可选地，所述初始语料集合中包含噪声的语料的占比不超过50％。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如上述任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如上述任一项所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例提供的方案，可以获取初始语料集合的估计标签分布；然后，根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布；之后，基于所述置信矩阵获取所述初始语料集合中的噪声语料；最后，处理所述初始语料集合中的噪声语料，获得目标语料集合。这样，本实施例中可以通过标签的预测概率和标注标签来建立置信矩阵，并通过置信矩阵来识别出初始语料集合中的噪声语料，在对噪声语料处理后，可以减少目标语料中噪声语料所占的比例和歧义信息，使目标语料的边界更清晰，减少垂域模型的训练次数，进而减少训练所需要的计算资源和消耗时长，有利于提升训练效率；或者说，本实施例可以提供高质量的训练语料来改善训练后垂域模型的分类准确度，使垂域模型在面对用户请求时能够提供高质量的语音服务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语料降噪方法的流程图。

图2是根据一示例性实施例示出的获取估计标签分布的流程图。

图3是根据一示例性实施例示出的获取置信矩阵的流程图。

图4是根据一示例性实施例示出的获取噪声语料的流程图。

图5是根据一示例性实施例示出的一种应用场景获取识别噪声语料正确率的曲线示意图。

图6是根据一示例性实施例示出的一种语料降噪装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

为解决上述技术问题，本公开实施例提供了一种语料降噪方法及装置、电子设备和存储介质，可以应用于电子设备，该电子设备可以包括但不限于：个人电脑(PersonalComputer，PC)、智能手机、服务器或者服务器集群等。图1是根据一示例性实施例示出的一种语料降噪方法的流程图。参见图1，一种语料降噪方法，包括步骤11～步14。

在步骤11中，获取初始语料集合的估计标签分布。

本实施例中，电子设备可以从指定位置获取初始语料集合，该初始语料集合为某个垂域的训练语料数据，效果如表1所示。其中垂域是指用户语音指令所涉及的领域，例如音乐、天气等领域，在此不作限定。上述指定位置可以为电子设备的本地存储器、云端和外部存储设备。在一示例中，上述初始语料可以包括用户请求文本及其所属标签组成，上述标签可以由人工进行预先标注。

表1各个语料的标注标签

语料	标注标签
		X<sub>i＝1</sub>	y<sub>j＝2</sub>
X<sub>i＝2</sub>	y<sub>j＝1</sub>
		X<sub>i＝3</sub>	y<sub>j＝1</sub>
X<sub>i＝4</sub>	y<sub>j＝1</sub>
		X<sub>i＝5</sub>	y<sub>j＝2</sub>

需要说明的是，本实施例中假设初始语料集合中的一部分语料是包含噪声的，另一部分语料是无噪声的。由于无噪声语料是降噪依据，因此包含噪声的语料占比不能超过初始语料集合中语料总数的50％。

本实施例中，电子设备内预先存储垂域语料降噪模型，其输入是垂域语料，其输出是每条语料对应于各个标签的概率，并以预测标签分布与标注标签的交叉熵为优化目标。在一示例中，上述垂域语料降噪模型可以采用预训练语言模型BERT和多层感知机构建。

本实施例中，参见图2，在步骤21中，电子设备可以将初始语料集合的语料划分为K个子集，如D¹，D²，...，D^K。K为正整数，K可以取值为10，可以根据具体场景进行设置，在此不作限定。然后，电子设备可以依次将上述K个子集中的各个子集作为验证集并且其他子集作为训练集。例如，第1次，可以将第1个子集D¹作为验证集使用，第2、3、……、K个子集D²，...，D^K作为训练集使用；第2次，可以将第2个子集，D²作为验证集使用，第1、3、……、K个子集D¹，D³，...，D^K作为训练集使用；……，第K次，可以将第K个子集D^K作为验证集使用，第1、2、……、K-1个子集D¹，D²，...，D^K-1作为训练集使用，最终获得K组训练集和验证集。

需要说明的是，在划分子集的过程中，电子设备还可以考虑各语料的标注标签，使各子集中语料的标签分布与初始语料集合中语料的标签分布相同；或者说，针对各个子集，该子集中每个标签的语料数量与子集中语料总数的比例等于初始语料集合中该标签的语料数量与初始语料集合中语料总数的比例。

另需要说明的是，由于初始语料集合中语料总数非常大，通常超过百万数量级，子集和初始语料集合的同一标签的比例可以视为是相同的；随着初始语料集合中语料总数的降低，如降至万数量级，在划分为10个组(即K取值10)时，每个子集中同一标签所占的比例可能不同，可能会与初始语料集合中所占比例存在误差，若误差不超过5％，此时仍可以视为子集和初始语料集合的同一标签的比例可以视为是相同的。也就是说，上述“相同”除了完全相同以外还包括存在一定误差的相近。

本实施例中，继续参见图2，在步骤22中，在划分完训练集和验证集之后，电子设备可以依次将训练集(如第K次训练时第1～K-1个子集)的语料输入到预设的垂域语料降噪模型中，即依次利用上述训练集对预设的垂域语料降噪模型进行训练，直至所有语料均使用完成或者预设的垂域语料降噪模型所预测标签的成功率超过设定阈值(如95％～99％)为止，最终获得训练后的垂域语料降噪模型。之后，电子设备可以利用训练后的垂域语料降噪模型获取验证集的估计标签分布，即依次将验证集中的各个语料输入到训练后的垂域语料降噪模型中，由垂域语料降噪模型输出各个语料分别在各个标签的预测概率。重复上述训练和验证步骤，经过K轮即使用完K组训练集和验证集之后，电子设备可以获取K个估计标签分布，即每一个验证集对应一个估计标签分布P^k。

本实施例中，继续参见图2，在步骤23中，电子设备可以拼接K个估计标签分布P¹，P²，...，P^K，从而获得初始语料集合的估计标签分布P。上述估计标签分布P可以用于近似表示初始语料集合的无损标签分布P′。其中无损标签是指语料对应的真实标签，并且无损标签分布P′获取难度较大，本示例中采用估计标签分布P近似替代无损标签分布P′但两者存在误差。为避免上述误差影响到后续识别出的噪声语料，本公开实施例中并未直接使用上述估计标签分布作为噪声识别依据，此时本实施例中估计标签分布获取置信矩阵，详见步骤12的内容。

在步骤12中，根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布。

本实施例中，在获得估计标签分布P之后，电子设备可以根据上述估计标签分布P获取置信矩阵，参见图3，包括步骤31～步骤35。

在步骤31中，电子设备可以从估计标签分布内获取各个标签的预测概率；其中，估计标签分布包括初始语料集合中各个语料被估计为各个标签的预测概率。

在步骤32中，电子设备可以计算各个标签y_j的预测概率{P_1j，P_2j，...，P_(t-1)j，P_tj}的平均值，并将该平均值作为所述各个标签的自信度，效果如表2所示。其中t表示初始语料集合中语料的总数。

表2各个标签的自信度

在步骤33中，针对所述各个语料，电子设备可以获取预测概率满足预设自信度条件的标签；该预设自信度条件是指预测概率需要是超过标签自信度的最大预测概率，效果如表3所示。参见表3，加粗数字表示各类别下超过标签自信度的最大预测概率，即满足过滤条件的元素。

参见表2和表3，对于语料X_i＝1，其三个标签的预测概率中标签y_j＝3的预测概率0.51超过标签y_j＝3的自信度0.42，标签y_j＝1和标签y_j＝2的预测概率未超过对应标签的自信度，因此0.51被加粗。对于语料X_i＝2，其三个标签的预测概率中标签y_j＝1的预测概率0.51超过标签y_j＝1的自信度0.34，标签y_j＝2和标签y_j＝3的预测概率未超过对应标签的自信度，因此0.51被加粗。对于语料X_i＝3，其三个标签的预测概率中标签y_j＝2的预测概率0.34超过标签y_j＝2的自信度0.25，标签y_j＝1和标签y_j＝3的预测概率未超过对应标签的自信度，因此0.34被加粗。对于语料X_i＝4，其三个标签的预测概率中标签y_j＝2、标签y_j＝1和标签y_j＝3的预测概率未超过对应标签的自信度，因此没有预测概率被加粗。对于语料X_i＝5，其三个标签的预测概率中标签y_j＝3的预测概率0.61超过标签y_j＝3的自信度0.42，标签y_j＝1和标签y_j＝3的预测概率未超过对应标签的自信度，因此0.61被加粗。

表3各类别下超过标签自信度的最大预测概率

在步骤34中，电子设备可以统计所述初始语料集合中满足预设自信度条件的标签类别下语料的数量。继续参见表3，标注标签y_j＝1类别下的语料数量为1(即语料X_i＝2)，标注标签y_j＝2类别下的语料数量为1(即语料X_i＝3)，标注标签y_j＝3类别下的语料数量为2(即语料X_i＝1和语料X_i＝5)。

在步骤35中，电子设备可以基于所述数量构建置信矩阵；所述置信矩阵中所有元素之和为1。例如，电子设备可以将各个标签作为已知的标注标签和未知的无损标签，构建用于近似标注标签和无损标签之间联合分布的初始置信矩阵，效果如表4所示。

表4初始置信矩阵

	y<sub>m＝1</sub>	y<sub>m＝2</sub>	y<sub>m＝3</sub>
				y<sub>n＝1</sub>	1	1	0
y<sub>n＝2</sub>	0	0	2
				y<sub>n＝3</sub>	0	0	0

其中，该初始置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为标签y_m的语料数量。

电子设备可以基于各个类别的语料数量对所述初始置信矩阵进行归一化处理，该归一化处理包括针对各个类别的归一化处理(效果如表5所示)和整体归一化处理，获得最终的置信矩阵，效果如表6所示。最终的置信矩阵中第n行第m列所在元素表示标注标签为y_n而预测为y_m的语料数量的归一化值。

参见表1、表4和表5，对于标签y_n＝1，初始置信矩阵中第一行元素总和为1+1+0＝2，而初始语料集合中标注标签为y_n＝1的语料总数为3，为了使得第一行元素总和与标签y_n＝1的语料总数保持一致，对表4中第一行元素进行缩放，即1*(3/2)＝1.5。对于标签y_n＝2，第二行元素总和为0+0+2＝2，而初始语料集合中标注标签为y_n＝2的语料总数为2，二者保持一致，无需缩放矩阵第二行元素。标签y_n＝3同理。缩放后的置信矩阵如表5所示。

表5类别归一化后的置信矩阵

	y<sub>m＝1</sub>	y<sub>m＝2</sub>	y<sub>m＝3</sub>
				y<sub>n＝1</sub>	1.5	1.5	0
y<sub>n＝2</sub>	0	0	2
				y<sub>n＝3</sub>	0	0	0

此外，为了获取[0,1]范围内的置信取值，对置信矩阵整体进行归一化，即通过除以置信矩阵所有元素的总和，来缩放每个元素。例如，1.5/(1.5+1.5+2)＝0.3，2/(1.5+1.5+2)＝0.4。最终归一化后的置信矩阵如表6所示，置信矩阵中所有数字元素的总和等于1。

表6最终归一化后的置信矩阵

	y<sub>m＝1</sub>	y<sub>m＝2</sub>	y<sub>m＝3</sub>
				y<sub>n＝1</sub>	0.3	0.3	0
y<sub>n＝2</sub>	0	0	0.4
				y<sub>n＝3</sub>	0	0	0

在步骤13中，基于所述置信矩阵获取所述初始语料集合中的噪声语料。

本实施例中，在获得置信矩阵之后，电子设备可以基于该置信矩阵获取初始语料集合中的噪声语料，参见图4，包括步骤41～步骤44。

在步骤41中，电子设备可以获取上述置信矩阵中非对角且非零元素对应的语料，得到高噪声语料集合S。其中高噪声语料集合S用于表示较大概率错误/不合理的语料。

继续参见表3和表6，选择表6中(1，2)和(2，3)位置处的元素，而表6中左上角(1，1)位置的元素处于对角线不选择。其中(1，2)位置处的元素对应表3中的语料X_i＝3；(2，3)位置处的元素对应表3中的语料X_i＝1和X_i＝5。因此，高噪声语料集合可以包括语料X_i＝3、X_i＝1和X_i＝5。

在步骤42中，电子设备可以从所述高噪声语料集合中获取满足标注标签为y_n且预测概率超过标签y_m自信度的语料，所述语料构成高噪声语料子集合Snm；其中y_n≠y_m。以S_{n＝2，m＝3}为例，子集合S_{n＝2，m＝3}中包含语料X_i＝1(P_i＝1,j＝3＝0.51)和X_i＝5(P_i＝5,j＝3＝0.61)。

在步骤43中，电子设备可以将所述高噪声语料子集合Snm中各个语料按照预测概率进行排序。以升序排序为例，顺序为：X_i＝1(P_i＝1,j＝3＝0.51)、X_i＝5(P_i＝5,j＝3＝0.61)。

在步骤44中，电子设备可以从预测概率最小的语料开始，筛选所述高噪声语料子集合Snm的语料，将所述语料作为初始语料集合中的噪声语料；所述噪声语料的数量为预设的降噪比例、所述高噪声语料集合中语料的数量和所述置信矩阵中目标元素的乘积；所述目标元素是指所述置信矩阵中标注标签为y_n且预测为标签y_m时对应的数量。

以预设的降噪比例α取值为0.5，高噪声语料集合中语料的数量T，置信矩阵中目标元素C_{n＝2，m＝3}，可以计算出从高噪声语料子集合Snm中筛选语料的数量：α*T*C_n＝2,m＝3＝0.5*(1.5+2)*0.4＝0.7≈1，即选择1个语料作为噪声语料。然后按照从大到小的顺序排序X_i＝1(P_i＝1,j＝3＝0.51)和X_i＝5(P_i＝5,j＝3＝0.61)，由于0.51<0.61，因此确定0.51对应的语料X_i＝1作为最终确定噪声语料。也就是说，选取α*T*C_nm个预测概率P_im最小的语料作为噪声识别结果。

在步骤14中，处理所述初始语料集合中的噪声语料，获得目标语料集合。

本实施例中，在确定噪声语料之后，电子设备可以处理初始语料集合中的噪声语料。处理方式可以包括：从初始语料集合中剔除噪声语料；或者，修正初始语料集合中噪声语料的错误标签，修正时可以提醒用户人工修正，再利用修正后的噪声语料替代原噪声语料。这样，电子设备可以获取目标语料集合。

可理解的是，在获取目标语料集合后，电子设备可以使用上述目标语料集合进行模型训练。例如继续训练垂域语料降噪模型，重新计算置信度并重新调整语料的标签及预测概率。又如训练垂域服务模型，由垂域服务模型提供高质量的服务并反馈给用户。

至此，本公开实施例提供的方案，可以获取初始语料集合的估计标签分布；然后，根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布；之后，基于所述置信矩阵获取所述初始语料集合中的噪声语料；最后，处理所述初始语料集合中的噪声语料，获得目标语料集合。这样，本实施例中可以通过标签的预测概率和标注标签来建立置信矩阵，并通过置信矩阵来识别出初始语料集合中的噪声语料，在对噪声语料处理后，可以减少目标语料中噪声语料所占的比例和歧义信息，使目标语料的边界更清晰，减少垂域模型的训练次数，进而减少训练所需要的计算资源和消耗时长，有利于提升训练效率；或者说，本实施例可以提供高质量的训练语料来改善训练后垂域模型的分类准确度，使垂域模型在面对用户请求时能够提供高质量的语音服务。

下面结合智能语音助手的应用场景来分析本实施例提供的语料降噪方法的效果。

电子设备可以获取百万量级的垂域语料作为初始语料集合，然后利用上述语料降噪方法识别出噪声语料，实现自动挖掘出噪声语料，噪声识别准确性高，有利于降低人力成本。并且，本示例中，在实现过程中所需要的计算资源比较小且能耗低，以百万量级的垂域语料为例，V100单卡需要5小时即可。

以人工复核结果为依据，与人工复核结果相同的噪声语料则认定为准确，评估结果如表7所示以及准确率如图5所示。

表7

参见表7和图5，本示例提供的语料降噪方法可以识别出初始语料集合中的噪声语料，并随着噪声语料的减少而准确率提升，从而有利于提升语料质量，以及提升后续垂域模型提供服务的质量。以应用于智能语音助手下的垂域模型语料降噪的真实场景为例，评估结果如表8和表9所示。

表8垂域内多功能分类模型的实验结果

表9垂域召回二分类模型实验结果

#噪声语料：模型识别出的可能的噪声语料数量；

平均(降噪时)≈原始比例；

原始比例：在垂域语料上，未降噪时的模型分类性能；

修正后的比例：在垂域语料上，降噪后的模型分类性能；

线上反馈未降噪比例：在线上反馈的失败示例中，未降噪时的模型分类性能；

线上反馈剔除语料后的比例：在线上反馈的失败示例中，剔除噪声后的模型分类性能；

提升比例：修正后的比例减去原始比例。

在本公开实施例提供的一种语料降噪方法的基础上，本公开实施例还提供了一种语料降噪装置，应用于电子设备，参见图6，所述装置包括：

标签分布获取模块61，用于获取初始语料集合的估计标签分布；

置信矩阵获取模块62，用于根据所述估计标签分布获取置信矩阵，所述置信矩阵用于描述类别条件下的标签噪声分布；

噪声语料获取模块63，用于基于所述置信矩阵获取所述初始语料集合中的噪声语料；

噪声语料处理模块64，用于处理所述初始语料集合中的噪声语料，获得目标语料集合。

在一实施例中，所述标签分布获取模块包括：

子集获取单元，用于将所述初始语料集合划分为K个子集，并依次将所述K个子集中各子集作为验证集且其他子集作为训练集；K为正整数；

分布拼接单元，用于拼接K个估计标签分布获得所述初始语料集合的估计标签分布；所述估计标签分布用于近似表示所述初始语料集合的无损标签分布。

在一实施例中，各子集中语料的标签分布与所述初始语料集合中语料的标签分布相同。

在一实施例中，所述置信矩阵获取模块包括：

平均值计算单元，用于计算各个标签的预测概率的平均值，并将所述平均值作为所述各个标签的自信度；

数量统计单元，用于统计所述初始语料集合中满足预设自信度条件的标签类别下语料的数量；

矩阵构建单元，用于基于所述数量构建置信矩阵；所述置信矩阵中所有元素之和为1。

在一实施例中，所述矩阵构建单元包括：

在一实施例中，所述噪声语料获取模块包括：

集合获取单元，用于获取所述置信矩阵中非对角且非零元素对应的语料，得到高噪声语料集合；

语料排序单元，用于将所述高噪声语料子集合Snm中各个语料按照预测概率进行排序；

在一实施例中，所述噪声语料处理模块包括：

语料剔除单元，用于从所述初始语料集合中剔除所述噪声语料；

或者，

语料修正单元，用于修正所述初始语料集合中噪声语料的错误标签。

在一实施例中，所述初始语料集合中包含噪声的语料的占比不超过50％。

需要说明的是，本实施例中示出的装置与图1所示方法实施例的内容相匹配，可以参考上述方法实施例的内容，在此不再赘述。

图7是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备700可以是智能手机，计算机，数字广播终端，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，通信组件716，图像采集组件718，以及上述壳体。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行计算机程序。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类别的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的计算机程序，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类别的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。电源组件706可以包括电源芯片，控制器可以电源芯片通信，从而控制电源芯片导通或者断开开关器件，使电池向主板电路供电或者不供电。

多媒体组件708包括在电子设备700和目标对象之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自目标对象的输入信息。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

音频组件710被配置为输出和/或输入音频文件信息。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频文件信息。所接收的音频文件信息可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频文件信息。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如组件为电子设备700的显示屏和小键盘，传感器组件714还可以检测电子设备700或一个组件的位置改变，目标对象与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。本示例中，传感器组件714可以包括磁力传感器、陀螺仪和磁场传感器，其中磁场传感器包括以下至少一种：霍尔传感器、薄膜磁致电阻传感器、磁性液体加速度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G、5G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信息或广播相关信息。在一个示例性实施例中，通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信息处理器(DSP)、数字信息处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

在示例性实施例中，还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如图1所述方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述可执行的计算机程序可由处理器执行，以实现如图1所述方法的步骤。其中，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于多域扩张的音频增强方法及装置

语料降噪方法及装置、电子设备和存储介质

相关技术

网友询问留言