神经网络的训练方法、装置、电子设备及存储介质

文档序号:1862178 发布日期:2021-11-19 浏览:9次 >En<

阅读说明:本技术 神经网络的训练方法、装置、电子设备及存储介质 (Neural network training method and device, electronic equipment and storage medium ) 是由 郝洋 丁文彪 刘子韬 于 2020-04-30 设计创作,主要内容包括:本申请实施例提供一种神经网络的训练方法、装置、设备及存储介质,神经网络的训练方法包括:从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。提高了网络训练的效果,增强了神经网络的准确度。(The embodiment of the application provides a training method, a device, equipment and a storage medium of a neural network, wherein the training method of the neural network comprises the following steps: selecting at least one sample group from a current sample set of a first network for training a neural network, the sample group comprising at least two positive samples and a negative sample, the two positive samples comprising the first sample; inputting each sample in the sample group into a first network to obtain a feature representation corresponding to each sample; for each sample group, determining the posterior probability of the sample group according to the feature representation corresponding to each sample in the sample group and the confidence coefficient of each sample; determining at least one target data group in at least one sample group based on the posterior probability corresponding to the at least one sample group; the first network is trained based on at least one target data set. The effect of network training is improved, and the accuracy of the neural network is enhanced.)

神经网络的训练方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域,尤其涉及神经网络的训练方法、装置、电子设备及存储介质。

背景技术

在机器学习过程中,需要利用大量样本对神经网络模型进行训练,训练好的神经网络才能用于检测。在一些应用场景中,样本数据通常预先标注,为了提高标注的精度,可以由多方进行标注,即众包标签,一个样本包含多方标注的标签。

但是,众包标签不一致程度较高,被一部分标记者错误标记的样本很可能对神经网络的训练起到阻碍作用,降低神经网络准确度。

发明内容

有鉴于此,本发明实施例所解决的技术问题之一在于提供一种神经网络的训练方法、装置、电子设备及存储介质,用以克服上述缺陷。

本申请实施例提供一种神经网络的训练方法,其包括:

从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组至少包括两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。

可选地,在本申请的一种实施例中,该方法还包括:

在至少一个样本组的正样本中确定至少一个第二样本;根据至少一个样本组中第二样本对应的第二特征表示,确定第一样本对应的第一特征表示。

可选地,在本申请的一种实施例中,根据至少一个样本组中第二样本对应的第二特征表示,确定第一样本对应的第一特征表示,包括:

计算至少一个样本组中第二样本对应的第二特征表示的平均特征表示,作为第一样本对应的第一特征表示。

可选地,在本申请的一种实施例中,基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组,包括:

将后验概率小于预设概率的样本组确定为目标数据组;或,对后验概率按概率值大小进行排序,将排名在后或排名在前的预设比例的样本组确定为目标数据组。

可选地,在本申请的一种实施例中,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率,包括:

根据样本组中各样本对应的特征表示以及第一样本对应的第一特征表示计算目标数据组中每一个样本与第一样本的相似度;根据样本组中各样本的众包标签,确定各样本的置信度;根据相似度与置信度计算样本组的后验概率。

可选地,在本申请的一种实施例中,该方法还包括:

从用于训练神经网络的第一网络的多个样本集中选择一样本集作为当前样本集;以及

在基于当前样本集中的至少一个目标数据组对第一网络进行训练后,重复从多个样本集中选择一样本集作为当前样本集以及对第一网络进行训练的过程;

调整第一网络的参数,直至第一网络的损失值满足第一预设条件。

可选地,在本申请的一种实施例中,调整第一网络的参数,直至第一网络的损失值满足预设条件,包括:

根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的损失值;根据损失值调整第一网络中的权重参数,直至第一网络的损失值满足第一预设条件。

可选地,在本申请的一种实施例中,根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的损失值,包括:

根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的后验概率;将至少一个目标数据组中各目标样本的后验概率代入损失函数得到损失值。

可选地,在本申请的一种实施例中,该方法还包括:

将当前样本集中的样本输入训练后的第一网络,得到各样本对应的训练特征表示,根据各样本对应的训练特征表示以及各样本对应的标签训练神经网络的第二网络。

本申请实施例提供一种神经网络的训练装置,包括:

样本初始化模块,用于从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;

特征表示模块,将样本组中的每个样本输入第一网络得到各样本对应的特征表示;

运算模块,针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;

训练模块,基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。

本申请实施例提供一种电子设备,包括:处理器;以及被配置成存储计算机可执行指令的存储器,计算机可执行指令在被执行时使处理器实现本申请任一实施例所描述的方法。

本申请实施例提供一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被执行时实现本申请任一实施例所描述的方法。

本申请实施例提供的神经网络的训练方法、装置、电子设备及存储介质,从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。对神经网络中的第一网络进行单独训练,提高了第一网络的训练效果,而且没有直接将所有样本用来进行网络训练,而是根据后验概率选出目标数据组,利用目标数据组对第一网络进行训练,减少样本数据误标记对网络训练过程的影响,提高了网络训练的效果,增强了神经网络的准确度。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:

图1为本申请实施例提供的一种神经网络的训练方法的流程图;

图2为本申请实施例提供的一种神经网络的训练方法的流程图;

图3为本申请实施例提供的一种第一网络的架构图;

图4为本申请实施例提供的一种训练第一网络的流程图;

图5为本申请实施例提供的一种样本分布的效果示意图;

图6为本申请实施例提供的一种样本分布的效果示意图;

图7为本申请实施例提供的一种样本分布的效果示意图;

图8为本申请实施例提供的一种预测效果示意图;

图9为本申请实施例提供的一种神经网络的训练装置的结构图;

图10为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一、

本申请实施例提供一种神经网络的训练方法,如图1所示,图1为本申请实施例提供的一种神经网络的训练方法的流程图。该神经网络的训练方法包括以下步骤:

步骤101、从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组。

样本组至少包括两正样本和一负样本,两正样本中包括第一样本。作为一种实施方式,本发明实施例随机的选择两正样本(即正例样本或正例)和固定数量的若干负样本(即负例样本或负例)组合成一样本组,其中两正样本互不相同。需要说明的是,第一样本(也可以称为锚点)是从正样本中选出来用于后续运算的,并不是用于训练的样本。例如,所有的样本组可以共用一个第一样本,又如,所有的样本组中每一个样本组有一个第一样本。正样本可以是包含要检测/识别的目标的样本,非正样本均可认为是负样本。例如,如果神经网络是识别手机的,则包含手机的图像可以作为正样本,不包含手机的图像可以作为负样本;又如,神经网络是识别人脸的,则包含人脸的图像可以作为正样本,不包含人脸的图像可以作为负样本。当然,此处只是示例性说明,并不代表本申请局限于此。

第一网络可以是神经网络中的一个嵌入网络,即第一网络的输出是下一个网络或机器学习模型的输入,例如,第一网络的输出可以用于分类器的输入,当然,此处只是示例性说明,并不代表本申请局限于此。

步骤102、将样本组中的每个样本输入第一网络得到各样本对应的特征表示。

需要说明的是,一个样本可以是一个特征向量,将样本输入第一网络后,根据第一网络最后一层的矩阵运算,输出的结果也是一个特征向量,即为特征表示(英文:Representation),因此,在一些应用场景中,一个样本对应一个特征表示。当然,此处只是示例性说明,并不代表本申请局限于此。

可选地,同一个样本组中地各样本可以分别通过第一网络进行非线性变换,非线性变换的最后一个全连接层的输出作为样本对应的特征表示。利用非线性变换,在第一网络地层数增加时,可以提高第一网络特征提取的效果。

步骤103、针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率。

可选地,在本申请的一种实施例中,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率,包括:

针对每一个样本组,根据样本组中各样本对应的特征表示以及第一样本对应的第一特征表示计算样本组中除第一样本外余下的每一个样本与第一样本的相似度;根据样本组中各样本的众包标签,确定各样本的置信度;根据相似度与置信度计算样本组的后验概率。在一些应用场景中,一个样本组不仅包含第一样本(即锚点),还包含另一个正例和多个负例,该样本组的后验概率即表示该样本组中该另一个正样本与第一样本的相似程度(相对于负样本与第一样本的相似程度)。

可选地,在本申请的一种实施例中,该方法还包括:在至少一个样本组的正样本中确定至少一个第二样本;根据至少一个样本组中第二样本对应的第二特征表示,确定第一样本对应的第一特征表示。需要说明的是,第二样本可以是随机确定的正样本。需要说明的是,针对每一个样本组,可以从其正样本中确定一个第二样本作为该样本组的初始锚点,而第一样本则为该样本组的目标锚点。另外,该样本组中的另一个正样本与锚点不同。

进一步可选地,根据至少一个样本组中第二样本对应的第二特征表示,确定第一样本对应的第一特征表示,包括:计算至少一个样本组中第二样本对应的第二特征表示的平均特征表示,作为第一样本对应的第一特征表示。

在一种应用场景中,可以先确定第二样本,再确定第一样本;在另一种应用场景中,可以直接确定第一样本对应的第一特征表示,对此,此处列举四种实现方式说明如何确定第一样本:

在第一种实现方式中,该方法还包括:计算至少一个正样本对应的特征表示的平均特征表示作为第一样本的特征表示。

在第一种实现方式中,该方法还包括:计算至少一个正样本对应的特征表示的平均特征表示,将特征表示与该平均特征表示最接近的正样本作为第一样本。

在第三种实现方式中,该方法还包括:在样本组的正样本中确定第二样本并得到至少一个样本组的至少一个第二样本;计算至少一个第二样本对应的特征表示的平均特征表示作为第一样本的特征表示。

在第四种实现方式中,该方法还包括:在样本组的正样本中确定第二样本并得到至少一个样本组的至少一个第二样本;计算至少一个第二样本对应的特征表示的平均特征表示,将特征表示与该平均特征表示最接近的第二样本作为第一样本。

第二样本可以是在所有的正样本中随机确定的,只要保证与同一个样本组中已有的正样本不同。以上四种实现方式,都是根据多个样本的平均特征表示确定第一样本的特征表示,相比于将某一个样本作为第一样本,该样本如果标记错误,则根据该样本确定的第一样本就会对训练过程产生影响,导致训练的单一网络准确度降低,利用多个样本的平均特征表示确定第一样本的特征表示,就避免了这个问题,即便有个别样本标记错误,平均特征表示受到的影响很小,以此确定地第一样本准确性更高。

当然,此处只是示例性说明,并不代表本申请局限于此。基于以上说明,此处列举一个具体的应用场景对后验概率进行进一步说明,可选的,在一种应用场景中,一个样本组可以包括一个第一样本、一个正例和m个负例,正例与第一样本合起来可以作为两个正样本,m为大于1的整数,该样本组可以表示为g=(Xa,Xp,Xn0,Xn0,Xn1,Xn2,……Xn(m-1));其中Xa表示第一样本,Xp表示正例,Xn0,Xn1,Xn2,……Xn(m-1)表示m个负例。该样本组的后验概率是根据该样本组中每一个样本(Xp,Xn0,Xn0,Xn1,Xn2,……Xn(m-1))分别与第一样本的相似度以及每一个样本(Xp,Xn0,Xn0,Xn1,Xn2,……Xn(m-1))的置信度计算得到的,该样本组的后验概率可以表示该样本组中的正例是否被网络学习到与负例进行区分。

在本申请的一种实施例中,根据样本的众包标签计算样本的置信度。因为众包标签是多方对样本的标注,因此,置信度可以表示该样本的标签的准确程度。例如,在识别人脸的应用场景中,一个图像由7方进行标注,标注为1表示该图像包含人脸,是正样本,标注为0表示该图像不包含人脸,是负样本;如果该图像的标签是7个1,则表示该图像是正样本的可信度很高,同理,如果该图像的标签是7个0,则表示该图像时负样本的可信度很高;如果该图像的标签是5个1,2个0,则表示该图像是正样本的可信度较高,同理,如果该图像的标签时5个0,2个1,则表示该图像是负样本的可信度较高;如果该图像的标签是4个1,3个0,或者该图像的标签是3个0,4个1,则表示该图像标注存在很大争议,因此,该图像的众包标签中,正样本的标注/负样本的标注的数量越接近总数的1/2,该样本标注争议越大,该样本的可信度就越低(即置信度较低),正样本的标注/负样本的标注的数量越接近0或者总数,该样本的可信度就越高(即置信度越高)。当然,此处只是示例性说明,并不代表本申请局限于此。

步骤104、基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组。

目标数据组包括至少一个目标样本。需要说明的是,目标数据组的数量可以是一个或者多个。每个目标数据组中包含的至少一个目标样本可以包括一个第一样本、一个正样本和m个负样本,因为目标数据组是从至少一个样本组中选择出来的,因此,目标数据组与步骤103中描述的样本组的结构相同,此处不再赘述。

可选地,在本申请的一种实施例中,基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组,包括:

将后验概率小于预设概率的样本组确定为目标数据组;或,对后验概率按概率值大小进行排序,将排名在后或排名在前的预设比例的样本组确定为目标数据组。

可选地,在第一种可选的实现方式中,根据后验概率在至少一个样本组中确定目标数据组,包括:将后验概率大于或等于预设概率的样本组确定为目标数据组。后验概率越大,说明样本组的可信度越高,如果第一网络的准确度较低(例如第一网络是刚建立的模型),利用可信度较高的样本组对第一网络进行训练,可以快速提高第一网络的准确度。

在第二种可选的实现方式中,将至少一个样本组的后验概率按照从小到大顺序排列,从至少一个样本组中选出排名靠前d%(d为超参数,d%即为预设比例)个样本组作为目标数据组。至少一个样本组的后验概率如果按照从大到小顺序排列,则从至少一个样本组中选出排名靠后d%个样本组作为目标数据组。例如,将至少一个样本组中后验概率最小的样本组作为目标数据组,当然,此处只是示例性说明,并不代表本申请局限于此。

后验概率越小,说明该样本组中的样本越难以判断是正例还是负例,利用该样本组进一步对第一网络进行训练可以提高第一网络的准确度。示例性的,结合第一种实现方式,如果第一网络是刚建立的模型,利用可信度高的样本组可以快速提高第一网络的准确度,因为可信度高的样本组是第一网络容易判断的样本组,如果一直利用可信度高的样本组进行训练,循环多次后,第一网络的准确度在提高到一定成都时就不会再提高,此时,如果利用后验概率小的样本组(即第一网络难以判断的样本组)进行训练,可以进一步提高第一网络的准确度。

步骤105、基于至少一个目标数据组对第一网络进行训练。

可选地,在本申请的一种实施例中,基于至少一个目标数据组对第一网络进行训练,包括:

将目标数据组输入第一网络得到至少一个目标样本对应的至少一个目标特征表示;根据至少一个目标特征表示与第一样本的特征表示调整第一网络中的权重参数。

可选地,在本申请的一种实施例中,该方法还包括:

从用于训练神经网络的第一网络的多个样本集中选择一样本集作为当前样本集;以及在基于当前样本集中的至少一个目标数据组对第一网络进行训练后,重复从多个样本集中选择一样本集作为当前样本集以及对第一网络进行训练的过程;调整第一网络的参数,直至第一网络的损失值满足第一预设条件。

结合步骤101-105,从当前样本集中选出样本组,将样本组中的样本输入第一网络得到各样本对应的特征表示,进而根据特征表示、置信度确定后验概率,根据后验概率在至少一个样本组中选择目标数据组,并利用目标数据组对第一网络进行训练,调整第一网络的参数,如此循环执行,直到损失值满足第一预设条件。需要说明的是,一共有两次样本输入第一网络,第一次是样本组中各样本输入第一网络得到各样本的特征表示,各样本的特征表示是为了计算后验概率从而选出目标数据组;第二次输入第一网络是将目标数据组中的目标样本输入第一网络得到各目标样本的特征表示,各目标样本的特征表示是为了计算损失值,根据损失值对第一网络的参数进行调整。

可选地,在本申请的一种实施例中,调整第一网络的参数,直至第一网络的损失值满足预设条件,包括:

根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的损失值;根据损失值调整第一网络中的权重参数,直至第一网络的损失值满足第一预设条件。

可选地,在本申请的一种实施例中,根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的损失值,包括:

根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的后验概率;将至少一个目标数据组中各目标样本的后验概率代入损失函数得到损失值。

可选的,在一种实现方式中,损失值由相似度、置信度和神经网络中的权重参数代入损失函数得到,将损失值最小(即损失函数的函数值最小)时的权重参数作为新的权重参数进行下一次训练。如果损失值连续5次训练中都不下降,则训练完成。当然,此处只是以损失函数为例进行示例性说明,也可以设置其他函数作为期望,本申请对此不作限制。

可选地,在本申请的一种实施例中,该方法还包括:

将当前样本集中的样本输入训练后的第一网络,得到各样本对应的训练特征表示,根据各样本对应的训练特征表示以及各样本对应的标签训练神经网络的第二网络。神经网络包括第一网络和第二网络,第一网络的输出是第二网络的输入,利用各样本、各样本的特征表示以及各样本的标签训练第二网络,增加了第一网络输出的各样本的特征表示,提高了网络训练的效果。

本申请实施例提供的神经网络的训练方法,从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。对神经网络中的第一网络进行单独训练,提高了第一网络的训练效果,而且没有直接将所有样本用来进行网络训练,而是根据后验概率选出目标数据组,利用目标数据组对第一网络进行训练,减少样本数据误标记对网络训练过程的影响,提高了网络训练的效果,增强了神经网络的准确度。

实施例二、

基于上述实施例一所描述的神经网络的训练方法,此处列举一个具体的应用场景对神经网络的训练方法进行详细说明。本实施例以第二网络是分类器为例进行说明,本申请中,分类器指的是实现分类功能的机器学习模型,实施例一所描述的第一网络可以是分类器的一个嵌入式网络,即第一网络的输出是分类器的输入。

图2为本申请实施例提供的一种神经网络的训练方法的流程图,如图2所示,本申请实施例提供的神经网络的训练方法包括以下步骤:

步骤201、对至少一个样本进行预处理,获得用于对神经网络的第一网络进行第一批次训练的多个样本组。

对至少一个样本进行预处理包括将至少一个样本划分为至少一个样本组;根据众包标签为每个样本计算置信度。

在一种实现方式中,对于一次训练过程,可以在样本池中随机选择某种类别标签的样本作为正样本,其余所有不同类别标签的样本作为负样本。从所有正样本中随机选取一个样本作为第二样本;随后随机选取一个不相同的正样本和m个负样本构成一个样本组;再选择下一个第一样本,并在样本池中剩余的样本中随机选取一个不相同的正样本和m个负样本构成另一个样本组。如此循环,直到选出512个样本组,当然,此处只是示例性说明,并不代表本申请局限于此。可以将512个样本组作为一个训练批次,也可以将256个数据剧组作为一个训练批次,本申请对此不作限制,本实施例中只是以512个样本组为例进行说明,并不代表本申请局限于此。

根据样本组中每个样本的众包标签,为样本组中每个样本计算置信度,具体可以通过公式一进行计算,公式一如下:

其中,δ表示样本的置信度,vote表示该样本的众包标签中正例标签的数量,max(vote)表示众包标签中的标签总数,例如7个人同时为某个样本打标签,此处max(vote)即为7。结合实施例一中的解释,正样本的标注/负样本的标注的数量越接近总数的1/2,该样本标注争议越大,该样本的可信度就越低(即置信度较低),正样本的标注/负样本的标注的数量越接近0或者总数,该样本的可信度就越高(即置信度越高)。

步骤202、利用至少一个样本组训练第一网络。

图3为本申请实施例提供的一种第一网络的架构图,参照图3所示,以图4为例,对训练第一网络进行具体说明,图4为本申请实施例提供的一种训练第一网络的流程图,训练第一网络包括以下步骤:

步骤2021、将至少一个样本组中的样本输入第一网络得到至少一个样本的特征表示。

步骤2022、确定第一样本。此处对各样本与第一样本之间的距离进行说明。

第一样本可以作为锚点,可以理解为一个用于参考的样本。如图5所示,图5为本申请实施例提供的一种样本分布的效果示意图;图5中,白色三角形代表锚点,白色圆形代表正样本,黑色圆形代表负样本。第一网络的训练目标即为增大锚点与同类数据的相似度,等价于减小锚点与同类数据的距离;减小锚点与异类数据的相似度,等价于增大锚点与异类数据的距离,锚点与同类数据距离最小,且锚点与异类数据距离最大时,该第一网络准确度就很高了。

当然,在另一种应用场景中,锚点选择可能会出现错误,例如,将负例选择作为锚点,如图6所示,图6为本申请实施例提供的一种样本分布的效果示意图;图6中,黑色三角形代表锚点,白色圆形代表正样本,黑色圆形代表负样本。

因为存在少量错误标记的数据,因此,在有些训练过程中,随机选出的锚点的标签可能是错误标记的,这就会降低第一网络的准确度。

因此,可以先随机选择至少一个第二样本,利用第二样本对应的特征表示确定第一样本,例如,可以通过公式三计算第二样本对应的特征表示的平均特征表示,根据平均特征表示确定第一样本,公式三如下:

其中,FaverA表示至少一个第二样本对应的特征表示的平均特征表示,size表示样本组的数量,本实施例中size可以是512,embed(Xa)表示第二样本的特征表示。

如图7所示,图7为本申请实施例提供的一种样本分布的效果示意图,图7中,白色圆形代表正样本,黑色圆形代表负样本,可以看到,白色圆形所在的区域也包含黑色圆形,但通过计算平均特征表示确定出的第一样本则没有受到太大影响。可以将特征表示与平均特征表示最接近的正样本作为第一样本,或者,也可以直接将平均特征表示作为第一样本的特征表示进行运算,这样就大大减小了错误标记的样本对第一网络的准确度的影响。

步骤2023、计算每一个样本与第一样本的相似度。

对于同一个样本组中的样本,计算每个样本与该样本组的第一样本之间的相似度,具体的,可以根据欧式距离计算相似度,如公式二:

r(Fa,Fp)=const-||Fa-Fp||2, (公式二);

其中,r(Fa,Fp)表示样本与第一样本的相似度,||Fa-Fp||2表示样本与第一样本的欧式距离,const为常数,可以通过交叉验证的方式得到const,Fp表示样本的特征表示,Fa表示第一样本的特征表示。欧式距离用于计算两个向量之间的距离,距离越大,相似度越小,距离越小,相似度越大。因为样本通常以特征向量表示,经过第一网络运算后得到的特征表示也是向量,所以可以用欧式距离进行计算,当然,此处只是示例性说明,并不代表本申请局限于此。

步骤2024、在至少一个样本组中选择目标数据组。

可以通过公式四计算至少一个样本组中每个样本组的后验概率,公式四如下:

其中,表示后验概率,x*表示该样本组中除第一样本之外的样本,xp表示正样本,δ表示置信度,δp表示正样本xp的置信度,δ*表示样本x*的置信度,r表示相似度,F表示特征表示,例如,F(xp)表示正样本的特征表示,FaverA表示第一样本的特征表示(即通过公式三求得的平均特征表示),F(x*)表示样本x*的特征表示。

每一个样本组的后验概率都可以按照公式三进行计算,将至少一个样本组的后验概率按照从小到大顺序排列,选出至少一个数组中前d%(d为超参数)个样本组作为目标数据组。

选择标准可以用公式五表示,公式五如下:

其中IA(·)为示性函数,percentile(·)为百分位数计算。当然,此处只是示例性说明,并不代表本申请局限于此。利用后验概率小的样本组(即第一网络难以判断的样本组)进行训练,可以提高第一网络的准确度。

步骤2025、利用目标数据组对第一网络进行训练。

将目标数据组输入第一网络后,得到至少一个目标样本对应的至少一个目标特征表示,根据至少一个目标特征表示计算每一个目标样本的相似度,计算相似度可以利用公式二,根据相似度和置信度计算后验概率,可以参照公式四,然后利用后验概率计算损失值。可以通过公式六计算损失值,公式六如下:

其中,θ=argminL(g),L(g)表示损失函数,即损失值,第一网络的训练目标是得到损失函数L最小时的网络权重θ。

步骤202执行完成之后,可以再循环执行步骤201和步骤202,直到L(g)连续t次不下降,t可以自行设定,例如,t可以是5次,10次等,本申请对此不作限制。

步骤203、利用至少一个样本的特征表示和至少一个样本的众包标签训练分类器。

需要说明的是,至少一个样本的特征表示可以是将至少一个样本输入已经训练完成的第一网络得到的,当然,此处只是示例性说明,并不代表本申请局限于此。

此处对分类器的具体种类没有要求。例如,在一个具体的实施例中,可以选择使用逻辑回归(英文:Logistic Regression,LR)作为分类器。

步骤201-步骤203详细说明了网络训练的过程,在网络训练完成后,可以利用训练好的分类器进行预测。将待预测数据输入已训练的第一网络得到特征表示,将特征表示输入分类器,得到预测结果。

对一个新样本进行预测时,首先将至少一个新数据输入训练完成的第一网络,得到对应的特征表示,然后将特征表示输入训练完成的分类器,得到相应的预测结果。

通过神经网络得到数据特征表示的方式,增强了分类器对众包数据的分类效果;这里列举不同特征数量两个真实数据集来说明本算法的有效性,如图8所示,图8为本申请实施例提供的一种预测效果示意图,数据集1的输入特征为50维基于文本的统计特征,训练集样本908个,测试集样本200个,任务为判断学生口语表达流利度(是否流利,二分类);数据集2的输入特征为1632维声学情感特征,训练集样本406个,测试集样本200个,任务为判断是否声音的情感丰富(是/否,二分类);众包标注人员数量均为11人,均为二分类问题。

作为基线对比的是简单分类器,例如,LR分类器和梯度提升迭代决策树(英文:Gradient Boosting Decision Tree,GBDT),可以对于每个数据集,取分类效果最好的简单分类器作为基线。图8中的结果数据验证了本发明的算法在众包小规模数据上的有效性。

本申请实施例提供的神经网络的训练方法,从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。对神经网络中的第一网络进行单独训练,提高了第一网络的训练效果,而且没有直接将所有样本用来进行网络训练,而是根据后验概率选出目标数据组,利用目标数据组对第一网络进行训练,减少样本数据误标记对网络训练过程的影响,提高了网络训练的效果,增强了神经网络的准确度。

实施例三、

基于上述实施例所描述的神经网络的训练方法,本申请实施例提供了一种神经网络的训练装置,用于执行上述任一实施例所描述的神经网络的训练方法,如图9所示,该神经网络的训练装置90包括:

样本初始化模块901,用于从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;

特征表示模块902,将样本组中的每个样本输入第一网络得到各样本对应的特征表示;

运算模块903,针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;

训练模块904,基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。

可选地,在本申请的一种实施例中,特征表示模块902,还用于在至少一个样本组的正样本中确定至少一个第二样本;根据至少一个样本组中第二样本对应的第二特征表示,确定第一样本对应的第一特征表示。

可选地,在本申请的一种实施例中,特征表示模块902,用于计算至少一个样本组中第二样本对应的第二特征表示的平均特征表示,作为第一样本对应的第一特征表示。

可选地,在本申请的一种实施例中,运算模块903,用于根据样本组中各样本对应的特征表示以及第一样本对应的第一特征表示计算目标数据组中每一个样本与第一样本的相似度;根据样本组中各样本的众包标签,确定各样本的置信度;根据相似度与置信度计算样本组的后验概率。

可选地,在本申请的一种实施例中,样本初始化模块901,用于从用于训练神经网络的第一网络的多个样本集中选择一样本集作为当前样本集;

样本初始化模块901以及训练模块904,用于在基于当前样本集中的至少一个目标数据组对第一网络进行训练后,重复从多个样本集中选择一样本集作为当前样本集以及对第一网络进行训练的过程;调整第一网络的参数,直至第一网络的损失值满足第一预设条件。

可选地,在本申请的一种实施例中,训练模块904,用于根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的损失值;根据损失值调整第一网络中的权重参数,直至第一网络的损失值满足第一预设条件。

可选地,在本申请的一种实施例中,训练模块904,用于根据至少一个目标数据组中各目标样本与第一样本的相似度、各目标样本的置信度计算至少一个目标数据组中各目标样本的后验概率;将至少一个目标数据组中各目标样本的后验概率代入损失函数得到损失值。

可选地,在本申请的一种实施例中,训练模块904,用于将后验概率小于预设概率的样本组确定为目标数据组;或,对后验概率按概率值大小进行排序,将排名在前或排名在前的预设比例的样本组确定为目标数据组。

可选地,在本申请的一种实施例中,运算模块903,还用于根据样本的众包标签计算样本的置信度。

可选地,在本申请的一种实施例中,训练模块904,还用于将当前样本集中的样本输入训练后的第一网络,得到各样本对应的训练特征表示,根据各样本对应的训练特征表示以及各样本对应的标签训练神经网络的第二网络。

本申请实施例提供的神经网络的训练装置,从用于训练神经网络的第一网络的当前样本集中选择至少一个样本组,样本组包括至少两正样本和一负样本,两正样本中包括第一样本;将样本组中的每个样本输入第一网络得到各样本对应的特征表示;针对每一个样本组,根据样本组中各样本对应的特征表示,以及各样本的置信度,确定样本组的后验概率;基于至少一个样本组对应的后验概率,在至少一个样本组中确定至少一个目标数据组;基于至少一个目标数据组对第一网络进行训练。对神经网络中的第一网络进行单独训练,提高了第一网络的训练效果,而且没有直接将所有样本用来进行网络训练,而是根据后验概率选出目标数据组,利用目标数据组对第一网络进行训练,减少样本数据误标记对网络训练过程的影响,提高了网络训练的效果,增强了神经网络的准确度。

实施例四、

基于上述实施例所描述的神经网络的训练方法,本申请实施例提供了一种电子设备,用于执行上述任一实施例所描述的神经网络的训练方法,如图10所示,该电子设备100包括:至少一个处理器(processor)1002和存储器(memory)1004。

其中,存储器1004存储有计算机可执行指令,计算机可执行指令在被执行时使处理器1002实现本申请任一实施例所描述的神经网络的训练方法。

可选地,该电子设备还可以包括总线1006及通信接口(CommunicationsInterface)1008,处理器1002、通信接口1008、以及存储器1004通过通信总线1006完成相互间的通信。

通信接口1008,用于与其它设备进行通信。

处理器1002可能是中央处理器CPU,或者是特定集成电路ASIC

(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器1004,可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

实施例五、

基于上述实施例所描述的神经网络的训练方法,本申请实施例提供一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被执行时实现本申请任一实施例所描述的方法。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子设备。

至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。

上述实施例阐明的方法,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法及装置、电子设备和计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!