对抗性概率正则化

文档序号：1102615 发布日期：2020-09-25 浏览：6次 >En<

阅读说明：本技术 对抗性概率正则化 (Regularization of antagonism probability ) 是由 X·孙 M·沙阿 U·库鲁普 J·孙于 2019-02-21 设计创作，主要内容包括：提出了一种训练有监督神经网络以求解优化问题的方法,所述优化问题牵涉使误差函数<Image he="19" wi="30" file="DEST_PATH_IMAGE002.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>最小化,其中<Image he="19" wi="9" file="DEST_PATH_IMAGE004.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>是目标分布<Image he="21" wi="14" file="DEST_PATH_IMAGE006.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>的独立且同分布(i.i.d.)样本的向量,所述方法包括使用生成式对抗性网络的判别器来生成对抗性概率正则化项(APR)<Image he="22" wi="39" file="DEST_PATH_IMAGE008.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>,所述判别器接收来自<Image he="19" wi="9" file="DEST_PATH_IMAGE004A.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>的样本和来自正则化项分布<Image he="18" wi="18" file="DEST_PATH_IMAGE010.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>的样本作为输入。然后,对于有监督神经网络的每次训练迭代,将APR<Image he="17" wi="42" file="DEST_PATH_IMAGE012.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>添加到误差函数<Image he="19" wi="30" file="DEST_PATH_IMAGE002A.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"></Image>。(A method of training a supervised neural network to solve an optimization problem involving making an error function is presented Is minimized in that Is a target distribution Independently and identically distributed (i.i.d.) A vector of samples, the method comprising generating a antagonism probability regularization term (APR) using a discriminant of a generative antagonism network The discriminator receives the information from Sample and from regularization term distribution As input. Then, for each training iteration of the supervised neural network, the APR is applied Added to the error function 。)

对抗性概率正则化

相关应用的交叉引用

本申请要求于2018年2月23日提交的Sun等人的题为“ADVERSARIAL PROBABLISTICREGULARIZATION”的美国临时申请序列号62/634,332的优先权，该美国临时申请的公开内容特此通过引用以其整体并入本文中。

技术领域

本公开一般涉及神经网络，并且特别地涉及训练神经网络。

背景技术

机器学习中的许多问题牵涉求解以如下概念形式的优化问题

在此，是目标分布。牵涉该优化问题的两个示例包括稀疏回归和有监督神经网络。对于稀疏回归，是数据拟合误差（误差函数），并且

是有利于稀疏或可压缩

的分布（例如伯努利-亚高斯或拉普拉斯）。对于有监督神经网络，

是训练（即数据拟合）误差，并且促进网络权重上的某些结构。例如，

可以是高斯的，以确保权重分布是“民主的”。实践中更有趣的情况是，当

是离散分布时，比如二值的{+1，-1}或三值的{+1，0，-1}——这些分布导致紧凑的（即，量化的和稀疏的）网络，其是在推理中高效的网络，对于硬件实现而言是合期望的，并且对于对抗性的示例也是鲁棒的。

本公开主要集中于训练用于求解以上形式（1）的问题的紧凑的有监督神经网络。为了将形式（1）转化成具体的计算问题，考虑形式（1）的正则化版本：

这里，

的坐标被视为目标分布

的i.i.d.（独立且同分布）样本，并且小的

相当于

的坐标的经验分布接近于

。为了本公开的目的，

被称为概率正则化项。可调参数控制正则化项相对于

的相关强度。

给定，自然将

选取为概率密度函数（PDF）的某些单调函数，类似于如何在贝叶斯推理中编码先验。有两个挑战是突出的：（i）一般的概率分布可能不具有密度函数，或者即使它具有，密度函数也可能不是任何封闭的形式。（ii）密度函数可能是不连续的——离散分布，我们对具有离散支撑的PDF特别感兴趣。为了使用基于导数的方法或其它可扩展方法在大规模环境中优化（2），需要相当大量的分析和设计工作来应对这两个挑战。

另一个自然选择是使坐标分布的经验矩与目标

的经验矩之间的差异

（即，）在矩匹配方法的保护伞下。由于矩的计算，该方法倾向于导致很大的计算负担，并且它也不适合用于具有无界矩的分布（例如，重尾分布）。

发明内容

根据本公开的一个实施例，提出了一种训练有监督神经网络以求解优化问题的方法，该优化问题牵涉最小化误差函数，其中

是目标分布

的独立且相同分布（i.i.d.）样本的向量。该方法包括使用生成式对抗性网络的判别器生成对抗性概率正则化项（APR）

。判别器接收来自

的样本和来自正则化项分布

的样本作为输入。然后，对于有监督神经网络的每次训练迭代，将APR

添加到误差函数。

根据本公开的另一实施例，提供了一种神经网络训练系统，其包括用于存储编程指令的存储器和被配置为执行编程指令的处理器。编程指令包括当由处理器执行时使得处理器执行训练有监督神经网络的方法以求解优化问题的指令，该优化问题牵涉使误差函数最小化，其中

是所提出的目标分布的独立且同分布（i.i.d.）样本的向量。该方法包括使用生成式对抗性网络的判别器来生成对抗性概率正则化项（APR）。判别器接收来自的样本和来自正则化项分布的样本作为输入。然后，对于有监督神经网络的每次训练迭代，将APR

添加到误差函数

。

附图说明

图1是根据本公开的神经网络训练系统的示意性图示；

图2描绘用于生成对抗性概率正则化项（APR）的算法；

图3示出比较APR和GMM正则化网络的表；

图4示出对于LeNet-5的每一层的权重的直方图；

图5描绘在CIFAR-10上训练ResNet-44的时期1、10、50、100和400结束处权重分布的演变；

图6示出二值网络和三值网络的分类误差表；

图7示出利用三值权重训练ResNet-20的学习曲线；

图8是用于实现本文中描述的框架的计算设备的示意性图示。

具体实施方式

出于促进对本公开原理的理解的目的，现在将参考在附图中图示并且在以下书写的说明书中描述的实施例。要理解的是，并不旨在由此对本公开的范围进行限制。要进一步理解的是，本公开包括对所图示实施例的任何变更和修改，并且包括如本公开所属领域的普通技术人员通常会想到的本公开原理的进一步应用。

本公开针对用于训练有监督神经网络的系统和方法，所述有监督神经网络包括对目标分布

具有最小限制的正则化项

。该方法受到生成式对抗性网络（GAN）在学习自然图像或语言的分布中的最近的经验成功所启发。本文中描述的方法的中心思想是，分布匹配问题在GAN框架中被重新表述为分布学习问题，这导致从数据中学习的自然参数化正则化项。

GAN最初被提出用于生成看上去自然的图像，并且随后已经延伸到各种其它应用，包括半监督学习、图像超分辨率和文本生成。

GAN通过仿真生成器G与判别器D之间的竞争博弈来工作，生成器G与判别器D这二者是函数：给定目标分布和噪声（即，非信息）分布

，G从学习生成形式为的样本以欺骗D，并且同时D学习辨别真样本

与假样本。理想情况下，在均衡时，G学习真分布

，使得。从数学上来说，D学习将高的值分派给真样本，并且将低的值分派给假样本，并且博弈可以实现为如下鞍点优化问题：

。

由于选择针对分布的强距离度量，因此该公式无法学习退化分布，例如离散分布或支撑在低维流形上的分布。提出了Wasserstein GAN（WGAN）以缓解一些问题，它使用较弱的度量陆地移动距离（earth mover distance）或Wasserstein-1（W-1）距离。对于两个分布和，该距离被计算为

其中标示f的利普希茨（lipschitz）常数。因此，最小化生成器分布与目标分布之间的W-1距离产生极小极大（minimax）问题：

对度量的这种简单改变已经导致了在若干个任务上改进的学习表现。

在本公开中，离散分布是令人感兴趣的，并且因此W-1距离是如在WGAN中一起使用的合理的度量。这促使了对于概率正则化项的以下选择：

。

由于仅考虑有限维的

，因此已经利用项来直接替换第二项的经验分布。

作为在GAN文献中的标准，函数

被实现为深度网络，其具有权重向量。因此被用于使依赖性显式。将此与（2）相组合，本公开的中心优化问题被获得为：

。

GAN框架固有的该方法的一个显著特征是仅需要来自目标分布

的样本，如由

项所指定的。这与依赖于存在具有合理正则性（例如，封闭形式以及可能地还有可微性）的PDF的方法相比是有利的，此时可以容易地获得样本。这是用于学习离散分布的情况。

图1描绘了根据本公开的神经网络训练系统10的概念图解，该神经网络训练系统10使用来自GAN的判别器网络来生成对抗性概率正则化项（APR）。如图1中所描绘的，存在原始学习器（误差函数）12和由来参数化的判别器网络

14。原始学习器12试图找到使

变小的

并且同时携带伪造判别器的坐标的经验分布。判别器14试图找到，使得它可以从目标分布

中区分真样本，并且从

的坐标中区分“假”样本。判别器14输出APR

，该APR

在加法节点16处被添加到误差函数

。加法节点16的输出对应于。

本文中描述的框架可以服从与GAN（图1）中所示的相同的生成器-判别器博弈解释，但是与经典GAN有两个重要的差异。首先，不存在生成器，并且框架直接与经验样本一起工作。仅存在有限数量的经验样本，它们是有限维向量

的坐标。相比之下，经典GAN被期望学习有效的生成器，其总是（希望）根据来自的样本的

生成样本。第二，当生成经验样本（即，的所有坐标）以匹配/欺骗判别器网络时，还存在要被最小化的附加的

项。

为了使该方法适于学习紧凑的神经网络，模型优化问题（5）被修改成基于深度神经网络（DNN）的有监督学习问题。给定数据标签对

，定义以下函数：

，

其中除了由参数化的某个DNN之外还定义了损失函数

。

将此代入优化问题（5）中导致鞍点优化问题，其采取以下形式：

。

由于量化和稀疏权重在训练和推理上的实际优势，因此目标分布

可以被设置用于适当地学习紧凑网络。我们可以设置，例如，

，

以学习量化的二值网络，或者对于小的设置

以学习稀疏和量化网络。我们使用的优化算法与经典GAN的优化算法、即交替（随机）梯度下降和上升相同，其被总结在图2中描绘的算法中。在收敛时，逐坐标地对

应用简单的单次舍入。

在文献中存在用于将本方法与用于网络量化和稀疏化的先前方法进行比较和对比的两种主要方法。这些方法被基于量化和稀疏化是否干预训练处理而划分。许多现有方法在经训练的网络上操作，而没有对由于量化和稀疏化所致的预测准确度的潜在损失运用任何主动性控制。相比之下，其它最近的方法执行同时训练和量化（和/或稀疏化）。本方法在于第二种方法。

服从量化和稀疏化约束的直接训练需要困难的离散优化。现有方法在如何温和地实现约束方面是不同的。一种可能性是启发式地交织进行梯度下降和量化（也可能地是稀疏化）步骤。

即时量化步骤倾向于显著地节省前向和后向传播成本。然而，从优化的角度来看，这些方法是无原则性的。另一种可能性是将整个学习问题嵌入到贝叶斯框架中，使得可以经由对网络权重施加适当的贝叶斯先验来促进量化和稀疏性。采用贝叶斯框架已经示出对于网络压缩是有利的，即展现出自动正则化效果。此外，在理论上，在权重上强制实行任意合期望的结构先验是可能的。然而，离散分布不适用于经由数值优化的实际贝叶斯推理。需要诸如重新参数化或连续松弛之类的分析技巧来找到对于离散分布的替代物，使得可以执行有效的计算。

与以上可能性相比，量化和稀疏化经由对抗性网络来被编码，所述对抗性网络被直接馈送有来自期望的离散分布的样本。以原则性的方式实施离散性先验。如在贝叶斯框架中所需要的，为离散分布导出良性替代物的（有时是实质性的）分析工作通过仅要求来自离散目标分布的样本而得以节省，所述来自离散目标分布的样本通常容易获得。

以下是在实现中可以使用的三个技巧的描述。这些技巧不是必须的，但可能是有益的。第一个技巧是

的裁剪。注意到，优化（5）和（6）服从

是1-利普希茨的约束，其中常数1可以通过相应地调整而改变为任何有界的K。所以其足以使是利普希茨。由于被实现为神经网络，因此只要当

有界时，

就是利普希茨。这可以通过在每次更新之后将每个

投影到[-1，1]中来被近似。

另一个技巧是

的加权采样。的坐标被假定为是i.i.d.的。然而，当训练深度网络时，不同的层可以具有非常不同的节点数量，从而导致权重数量方面的不一致——这对于第一层和最后一层尤其如此，与其它层相比，第一层和最后一层通常具有小数量的权重。这种不一致导致难以对第一层和最后一层进行量化，因为在随机优化设置中，具有很大的数量的权重的层倾向于被更频繁地采样，并且因此它们的权重倾向于快速收敛到目标分布。在APR框架中，问题可以容易地通过重新加权采样来被求解：让

是第i层中的权重数量。第i层中采样权重的概率由因子来缩放。

第三个技巧是上的同伦延拓。对于离散目标分布，理想情况下判别器将被离散地支撑，这可能花费神经网络大量时间来学习以近似。可以使用同伦延拓技术，该技术将分布从“好的”辅助分布

逐渐地朝向目标分布移动

：

这里

是时间因子，并且T是总的训练时期。可以方便地被选择为覆盖范围的连续均匀分布。这可以被认为是用于离散分布的粗略分级平滑处理，其经由输入混合样本来被控制——这是我们的方法的区别特征。这可以与用于离散分布的精细分析平滑或重新参数化技术形成对比。该同伦延拓在经验上改进了收敛速度，但对于收敛而言不是必需的。

本公开集中于求解形式（1）的问题，特别是在其中是离散分布的学习量化和稀疏神经网络的上下文中。先前方法通过如下方式来求解所得到的混合连续-离散优化问题：通过投影梯度启发式算法（即，梯度下降与量化和/或稀疏化混合）；或者通过将问题嵌入到贝叶斯框架中，采用该方式，必然需要求解围绕离散分布的分析和计算问题。相比之下，本公开提出了一种具有以下特性的用于该问题的对抗性概率正则化（APR）框架：

（1）基于深度网络实现的正则化项是（几乎在任何地方——a.e.）可微的。因此，如果是a.e.可微的——这特别是当它也基于深度网络时是真的——则（5）中的组合极小极大目标可服从基于梯度的优化方法。（5）中的利普希茨约束可以实现为上的凸约束，因此从优化的角度来看，所得到的优化问题倾向于比从混合连续-离散方法导出的优化问题更好。

（2）正则化仅需要来自的样本，而不需要本身。这允许在选择

时具有相当大的普遍性，只要样本可以容易地获得；当是离散分布时，采样特别简单。这避免了围绕贝叶斯方法的许多分析和计算障碍。

本文中提出的简单方法与用于网络量化和稀疏化的现有技术方法相比是有利的。对于本文中提出的方法，

的坐标被假定为是i.i.d.的，这对于某些应用可能是限制性的。贝叶斯框架在理论上不受限制，但是分析和计算的易处理性可能是一个问题，正如我们上面讨论的。当

比如对于深度网络足够长时，将本框架推广到在的短分段上编码分布先验。

对于网络量化和稀疏化，在每次优化迭代处执行即时量化和稀疏化的方法倾向于节省大量的前向和后向传播计算。尽管如上面指出的，从优化的角度来看，这是不太有原则性的，但是本方法可以容易地被修改以执行即时操作。

若干种方法（包括本方法）已经报告了量化网络的性能与实值网络的性能相当。理论上，量化网络的容量仍然没有被很好地理解。例如，是否将存在针对量化网络的通用近似定理尚不清楚。

针对稀疏恢复和图像分类任务进行了实验，以研究行为并且验证APR的有效性。在两个数据集、即MNIST和CIFAR-10上对图像分类进行评估。所使用的比较方法包括生成式动量匹配（GMM）、二值连接、训练三值量化（TTQ）、变分网络量化（VNQ）和训练。

GMM主要与基于GAN的方法相关。据我们所知，GMM尚未被开发或采用以用于正则化目的而。然而，我们出于概率正则化目的而利用GMM，并且与APR进行比较。更具体地，给定来自正则化分布的样本集合

和权重集合，通过最大平均差异（MMD）来测量两个样本集合之间的分布距离

其中是具有带宽

的高斯核，以便与高阶矩匹配。为了使用GMM训练具有受约束于任意先验

的权值的深度网络，我们最小化经验损失函数（2），其中正则化项由（8）定义。为了实现更好的性能，在（8）中采用的启发式算法如下：MMD的平方根被用作正则化项，并且采用高斯的混合作为核函数。

在网络二值化的情况下，将本方法与在类VGG的深度网络上的二值连接进行比较。将本方法与TTQ方法进行比较，作为用于残差网络上的网络三值化的基线，所述残差网络具有20、32、44和56层，其分别具有0.27M、0.46M、0.66M和0.85M个可学习参数。该方法还与最近提出的基于连续松弛的方法、即用于网络三值化的变分网络量化（VNQ）方法进行比较。在实验设置一致的情况下，将该方法与DenseNet-121上的VNQ进行比较。

使用Adam来训练量化网络，并且采用默认的超参数设置来训练主网络。用于正则化网络的Adam超参数被设置为

、。也利用Adam训练基线模型，以用于公平比较。评价的样本批大小是256。权重学习率由权重初始化系数来缩放。贯穿于实验，我们实施使权重具有二元或三元值。对于三值网络，我们利用各种稀疏性级别来评估先验。对于对应的数据集，我们遵循常规的图像预处理和增强。我们构造基于多层感知器（MLP）的正则化网络，其具有三个隐藏层，以及作为激活函数的ReLU。

首先，在MNIST数据集上进行网络二值化和三值化以用于数字分类。在该实验中，采用了修改的LeNet-5，其包含具有1.26M个可学习参数的四个权重层。根据具有为0.76%的基线误差的预训练全精度模型来训练量化网络。学习率在0.001处开始，并且200个时期之后线性衰减到零。在该实验中比较了APR网络和GMM正则化网络的性能。用于这两种方法的学习调度是相同的。用于高斯混合核的带宽参数被设置为{0.001，0.005，0.01，0.05，0.1}。用于GMM的正则化参数被设置为，并且用于APR的正则化参数被设置为。

以下是APR和GMM正则化网络的比较。参考图3中描绘的表，APR（在表中示出为APR-T，T针对三值权重）实现0.83%误差的竞争性能，其胜过GMM（示出为GMM-T）0.6%。这两种方法利用清晰的三值模式来实施权重分配。然而，利用GMM使深度网络正则化会遇到可扩展性问题，即使是诸如LeNet-5之类的小网络也是如此。为了估计（8）中的核，GMM正则化项的计算成本关于权重数量而二次方地增长。在LeNet-5的情况下，在每个步骤处仅有1 %的权重被随机选择和正则化，这仍然要求在每个步骤处将计算10⁷个核。相反，在给定固定大小的正则化网络的情况下，APR的计算成本关于权值数量线性增长。

由于不同层不平衡的大小，深度网络的第一层和最后一层对于量化带来更多困难。LeNet-5量化的问题尤其严重：网络的四个层包含500、0.25M、1.2M和5K数量的权重，从而导致经验分布

被第三层所支配。如以上提出的，该问题可以容易地通过采用加权采样技巧来求解。用于LeNet-5每一层的权重直方图被图示在图4中。均匀权重以及已经采用上述加权采样技巧被重新加权的权重示出了针对每个层的区域。对于这两种情况，第三层的权重收敛到三值模式，其中两个直方图彼此重叠。然而，第一层的权重在没有采用加权采样的情况下无法与正则化先验拟合。相反，来自所有四个层的权重通过采用加权采样而展示强三值模式。

在由32x32大小的50000个训练RGB图像和10000个测试RGB图像构成的CIFAR-10数据集上，对APR正则化网络的分类性能进行了评估。在CIFAR-10上使用了标准的数据准备策略：训练图像和测试图像这两者被通过每像素减去均值进行预处理。通过在图像的每个边上填充4个像素来扩充训练集，并且随机裁剪一个32x32的区。用于训练主网络的迷你批（minibatch）大小是128。该方法在VGG-9和ResNet-20、32、44上进行评估。

在该实验中，权重被实施为具有二元或三元值。为了公平比较，遵循了相同的量化协议，即第一卷积层和完全连接层不被量化，因为它们仅包含少于0.4%总量的权重。利用总数量为400的时期训练深度神经网络，初始学习率为0.01。在时期80、120和150的结束处，学习率衰减到1/10。没有使用权重衰减，因为APR已经是对权重的强正则化。为了促进网络的收敛，采用了同伦延拓，所述同伦延拓采用辅助均匀分布。由于APR由始至终不实施离散值，因此舍入噪声被添加到350个时期之后的权重。

在CIFAR-10上训练ResNet-44的时期1、10、50、100和400的结束处的权重分布的演变在图5中示出。上面一行示出二值权重，并且下面一行示出三值权重。实线对应于根据正则化函数

的权重的经验分布，出于显示目的而缩放到[0，1]。虚线示出正则化分布

。出于显示的目的，离散分布被平滑。阴影区域示出权重的经验分布。蓝色实线：对正则化函数的评估，出于显示目的而缩放到[0，1]。如可以看到的，根据正则化函数的权重的经验分布（实线）接近离散先验

。

在图7中示出了用于训练具有三值权重的ResNet-20的学习曲线，其中展示了前200个时期。给定强正则化（

），在没有同伦延拓（黑线）的情况下，训练主网络停滞。相反，当采用同伦延拓（红线）时，网络恢复收敛，而在同时达到具有三值化模式的权重。通过选择小的值，通过利用正则化网络隐式地使离散先验松弛，损耗也快速下降。

图6示出了二值网络和三值网络的分类误差表。将本方法与全精度基线模型、二值连接（BC）和训练的三值量化（TTQ）进行比较。尽管本方法能够从头开始训练离散网络，但是使用预训练的全精度模型来训练该网络，以进行公平比较。APR-B指代被利用二值权重正则化的APR，并且APR-T指代被利用三值权重正则化的APR。在表中利用“”标记从预训练的全精度网络微调的模型。本方法在VGG-9、ResNet-20和ResNet-32上实现了最先进的网络三值化性能。与ResNet-44上的全精度网络相比，利用APR三值化的深度网络引入了较小的性能下降，并且超过了VGG-9、ResNet-20和ResNet-32上的全精度网络。在VGG-9上，APR-B实现7.82%的误差，并且胜过BC 2.5%。被三值化的网络进一步将误差降低到7.47%。

图8描绘了可以用于实现本文中描述的框架的计算机系统100的实施例。特别地，计算机系统包括至少一个处理器102，诸如中央处理单元（CPU）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）设备或微控制器。处理器102被配置为执行存储在存储器104中的编程指令。存储器104可以是任何合适类型的存储器，仅举几个示例，包括固态存储器、磁存储器或光学存储器，并且可以在单个设备中实现或者跨多个设备分布。存储在存储器104中的编程指令包括用于在系统中实现各种功能的指令，包括标识术语的候选和候选节点，以及使用基于出现和共同出现统计的集体推理来对候选进行评分。计算系统可以包括一个或多个网络接口设备106，以用于经由网络传输和接收数据以及通信。

虽然已经在附图和前面的描述中详细图示和描述了本公开，但是应当认为它们在符号方面是说明性的，而不是限制性的。应当理解的是，仅提出了优选实施例，并且在本公开的精神内的所有改变、修改和进一步的应用都期望受到保护。

18页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：仿神经网络及其制造方法

对抗性概率正则化

相关技术

网友询问留言