数据处理系统和数据处理方法

文档序号：1220310 发布日期：2020-09-04 浏览：8次 >En<

阅读说明：本技术 数据处理系统和数据处理方法 (Data processing system and data processing method ) 是由矢口阳一于 2018-01-16 设计创作，主要内容包括：数据处理系统(100)具有学习部,该学习部根据通过对学习数据执行基于神经网络的处理而输出的输出数据和针对该学习数据的理想的输出数据之间的比较,对神经网络的最优化对象参数进行最优化。神经网络的激活函数f(x)是如下的函数：在设第1参数为C、取非负值的第2参数为W时,针对输入值的输出值连续地取C±W的范围内的值,针对输入值的输出值是唯一地确定的,该函数的曲线图关于与f(x)＝C对应的点点对称。学习部将第1参数和第2参数作为最优化参数之一而进行最优化。(A data processing system (100) is provided with a learning unit that optimizes a parameter to be optimized for a neural network based on a comparison between output data output by performing a neural network-based process on learning data and ideal output data for the learning data. The activation function f (x) of the neural network is a function of: when the 1 st parameter is C and the 2 nd parameter that is a non-negative value is W, the output value for the input value continuously takes a value within the range of C ± W, and the output value for the input value is uniquely determined, and the graph of the function is point-symmetric with respect to a point corresponding to f (x) or C. The learning unit optimizes the 1 st parameter and the 2 nd parameter as one of the optimization parameters.)

数据处理系统和数据处理方法

技术领域

本发明涉及数据处理系统和数据处理方法。

背景技术

神经网络是包含1个以上的非线性单元的数学模型，是预测与输入对应的输出的机器学习模型。多数的神经网络除了具有输入层和输出层以外，还具有1个以上的中间层(隐藏层)。各中间层的输出成为下一层(中间层或输出层)的输入。神经网络的各层根据输入和自身的参数而生成输出。

现有技术文献

非专利文献

非专利文献1：AlexKrizhevsky、Ilya Sutskever、Geoffrey E.Hinton、“ImageNetClassification with Deep Convolutional Neural Networks”、NIPS2012_4824

发明内容

发明要解决的问题

期望能够实现比较高精度且更加稳定的学习。

本发明是鉴于这种状况而完成的，其目的在于，提供能够实现比较高精度且更加稳定的学习的技术。

用于解决问题的手段

为了解决上述问题，本发明的某个方式的数据处理系统具有学习部，该学习部根据通过对学习数据执行基于神经网络的处理而输出的输出数据和针对该学习数据的理想的输出数据之间的比较，对神经网络的最优化对象参数进行最优化。神经网络的激活函数f(x)是如下的函数：在设第1参数为C、取非负值的第2参数为W时，针对输入值的输出值连续地取C±W的范围内的值，针对输入值的输出值是唯一地确定的，该函数的曲线图关于与f(x)＝C对应的点点对称，学习部将第1参数和第2参数作为最优化参数之一而进行最优化。

本发明的另一个方式是数据处理方法。该方法具有以下步骤：通过对学习数据执行基于神经网络的处理，输出与学习数据对应的输出数据；以及根据与学习数据对应的输出数据和针对该学习数据的理想的输出数据之间的比较，对神经网络的最优化对象参数进行最优化。神经网络的激活函数f(x)是如下的函数：在设第1参数为C、取非负值的第2参数为W时，针对输入值的输出值连续地取C±W的范围内的值，针对输入值的输出值是唯一地确定的，该函数的曲线图关于与f(x)＝C对应的点点对称，在对最优化对象参数进行最优化的步骤中，将第1参数和第2参数作为最优化参数之一而进行最优化。

另外，以上的结构要素的任意组合、在方法、装置、系统、记录介质、计算机程序等之间转换本发明的表现而得到的内容作为本发明的方式也是有效的。

发明的效果

根据本发明，能够实现比较高精度且更加稳定的学习。

附图说明

图1是示出实施方式的数据处理系统的功能和结构的框图。

图2是示出数据处理系统进行的学习处理的流程图的图。

图3是示出数据处理系统进行的应用处理的流程图的图。

具体实施方式

下面，根据优选实施方式，参照附图对本发明进行说明。

在对实施方式进行说明之前，对作为基础的知识和见解进行说明。公知在使用梯度的学***均值从零偏离的情况下，由于与权重更新的方向对应的偏移的影响，学习滞后。

另一方面，通过将ReLU函数用于激活函数，能够缓和使深度神经网络的学***均值。因此，针对下一层的输入的平均值从零偏离，学习有时滞后。

提出了针对负值输入的梯度不为零的Leaky ReLU函数、PReLU函数、RReLU函数、ELU函数，但是，所有函数的输出的平均值均大于零。此外，CReLU函数和NCReLU函数在卷积深度学***均值成为零，但是，没有消除各通道的平均值从零偏离的问题。此外，无法应用于没有通道概念的其他神经网络。

Nonlinearity Generator(NG)被定义为f(x)＝max(x,a)(a为参数)，如果a≦min(x)，则成为恒等映射，因此，在以各层的输入的平均值成为零的方式进行初始化后的神经网络中，各层的输出的平均值为零。此外，在如上所述进行初始化的情况下，示出在进行收敛且平均值从零偏离的状态下也进一步进行收敛的实验结果，可知平均值零真正重要的是学习的初始。这里，当a的初始值a0过小时，到收敛开始为止需要极多时间，因此，优选a0≒min(x0)(x0为x的初始值)。但是，近年来，神经网络的计算图构造复杂化，难以给出适当的初始值。

Batch Normalization(BN)对小批量全体的平均和方差进行归一化，使输出的平均值成为零，由此使学习高速化。但是，近年来，报告了当在神经网络的任意层中进行偏置偏移时，无法担保神经网络的正齐次性，存在精度较低的局部解。

由此，为了实现比较高精度且更加稳定的学***均值在神经网络的初始状态下为零，在值域足够宽的范围内，梯度足够大(接近1)。

下面，以将数据处理装置应用于图像处理的情况为例进行说明，但是，本领域技术人员能够理解到，还能够将数据处理装置应用于声音识别处理、自然语言处理、其他处理。

图1是示出实施方式的数据处理系统100的功能和结构的框图。这里所示的各块在硬件方面能够通过以计算机的CPU(central processing unit)为首的元件或机械装置实现，在软件方面通过计算机程序等实现，但是，这里，描绘通过它们的协作而实现的功能块。因此，本领域技术人员能够理解到，这些功能块能够通过硬件、软件的组合以各种形式实现。

数据处理系统100执行“学习处理”和“应用处理”，在“学习处理”中，根据学习用图像和针对该图像的理想的输出数据即正解值进行神经网络的学习，在“应用处理”中，将已学习的神经网络应用于图像，进行图像分类、物体检测或图像分割等图像处理。

在学习处理中，数据处理系统100对学习用图像执行基于神经网络的处理，输出针对学习用图像的输出数据。然后，数据处理系统100对神经网络的最优化(学习)对象的参数(以下称为“最优化对象参数”)进行更新，以使得输出数据接近正解值。通过反复进行该处理，最优化对象参数被最优化。

在应用处理中，数据处理系统100使用在学习处理中最优化后的最优化对象参数，对图像执行基于神经网络的处理，输出针对该图像的输出数据。数据处理系统100对输出数据进行解释，对图像进行图像分类，或者从图像中进行物体检测，或者对图像进行图像分割。

数据处理系统100具有取得部110、存储部120、神经网络处理部130、学习部140和解释部150。主要通过神经网络处理部130和学习部140实现学习处理的功能，主要通过神经网络处理部130和解释部150实现应用处理的功能。

在学习处理中，取得部110一次取得多张学习用图像和与这多张图像分别对应的正解值。此外，在应用处理中，取得部110取得处理对象的图像。另外，图像与通道数无关，例如可以是RGB图像，此外，例如可以是灰度图像。

存储部120除了存储取得部110取得的图像以外，还成为神经网络处理部130、学习部140和解释部150的工作区域以及神经网络的参数的存储区域。

神经网络处理部130执行基于神经网络的处理。神经网络处理部130包含执行与神经网络的输入层的各组件(component)对应的处理的输入层处理部131、执行与1个以上的中间层(隐藏层)的各层的各组件对应的处理的中间层处理部132、以及执行与输出层的各组件对应的处理的输出层处理部133。

作为中间层的各层的各组件的处理，中间层处理部132执行对来自前级的层(输入层或前级的中间层)的输入数据应用激活函数的激活处理。另外，中间层处理部132也可以在激活处理的基础上，执行卷积处理、间疏处理、其他处理。

激活函数由以下的式(1)给出。

[数式1]

f(x_c)＝max((C_c-W_c)，min((C_c+W_c)，x_c))…(1)

这里，C_c是表示输出值的中心值的参数(以下称为“中心值参数”)，W_c是取非负值的参数(以下称为“宽度参数”)。中心值参数C_c、宽度参数W_c的参数对按照每个组件而独立地被设定。例如组件是输入数据的通道、输入数据的坐标、输入数据本身。

即，本实施方式的激活函数是如下的函数：针对输入值的输出值连续地取C±W的范围内的值，针对输入值的输出值是唯一地确定的，其曲线图关于与f(x)＝C对应的点点对称。因此，如后所述，在对中心值参数C_c的初始值设定了例如“0”的情况下，在学***均值、即针对下一层的输入的平均值明显成为零。

输出层处理部133例如进行组合了softmax函数、sigmoid函数和交叉熵函数等的运算。

学习部140对神经网络的最优化对象参数进行最优化。学习部140通过目标函数(误差函数)计算误差，该目标函数对通过将学习用图像输入到神经网络处理部130而得到的输出和与该图像对应的正解值进行比较。学习部140根据计算出的误差，如非专利文献1所记载的那样，通过梯度反向传播法等计算与参数有关的梯度，根据动量法对神经网络的最优化对象参数进行更新。在本实施方式中，在最优化对象参数中，除了权重系数和偏置以外，还包含中心值参数C_c和宽度参数W_c。另外，对中心值参数C_c的初始值设定例如“0”，对宽度参数W_c的初始值设定“1”。

以对中心值参数C_c和宽度参数W_c进行更新的情况为例，具体说明学习部140进行的处理。

学习部140根据梯度反向传播法，利用以下的式(2)、(3)分别计算神经网络的目标函数ε的与中心值参数C_c有关的梯度和与宽度参数W_c有关的梯度。

[数式2]

[数式3]

这里，是从后续的层反向传播来的梯度。

学习部140利用以下的式(4)、(5)、(6)计算与中间层的各层的各组件中的输入x_c、中心值参数C_c和宽度参数W_c分别有关的梯度

[数式4]

[数式5]

[数式6]

学习部140根据计算出的梯度，利用动量法(以下的式(7)、(8))对中心值参数C_c、宽度参数W_c进行更新。

[数式7]

[数式8]

其中，

μ：动量

η：学习率

例如设定为μ＝0.9、η＝0.1。

学习部140在成为W_c<0的情况下，进一步更新为W_c＝0。

反复进行取得部110进行的学习用图像的取得、神经网络处理部130针对学习用图像进行的基于神经网络的处理、以及学习部140进行的最优化对象参数的更新，由此，最优化对象参数被最优化。

此外，学***均值达到规定值、计算出的误差收敛于规定的范围内。学习部140在满足了结束条件的情况下，结束学习处理。学习部140在不满足结束条件的情况下，使处理返回神经网络处理部130。

解释部150对来自输出层处理部133的输出进行解释，实施图像分类、物体检测或图像分割。

对实施方式的数据处理系统100的动作进行说明。

图2示出数据处理系统100进行的学习处理的流程图。取得部110取得多张学习用图像(S10)。神经网络处理部130针对取得部110取得的多张学习用图像，分别执行基于神经网络的处理，输出与多张学习用图像分别有关的输出数据(S12)。学习部140根据与多张学习用图像分别有关的输出数据和与多张学习用图像分别有关的正解值对参数进行更新(S14)。在该参数的更新中，除了加权系数和偏置以外，还将中心值参数C_c和宽度参数W_c作为最优化对象参数进行更新。学习部140判定是否满足结束条件(S16)。在不满足结束条件的情况下(S16：否)，处理返回S10。在满足结束条件的情况下(S16：是)，处理结束。

图3示出数据处理系统100进行的应用处理的流程图。取得部110取得应用处理的对象的图像(S20)。神经网络处理部130针对取得部110取得的图像，执行基于最优化对象参数被最优化后的即已学习的神经网络的处理，输出输出数据(S22)。解释部150对输出数据进行解释，对对象的图像进行图像分类，或者从对象的图像中进行物体检测，或者对对象的图像进行图像分割(S24)。

根据以上说明的实施方式的数据处理系统100，全部激活函数的输出不依赖于输入的初始值，没有偏置偏移，输出平均值在神经网络的初始状态下为零，在值域的固定范围内，梯度成为1。由此，能够实现学习的高速化、梯度的维持、初始值依赖性的缓和、低精度局部解的避免。

以上根据实施方式说明了本发明。本领域技术人员能够理解到，该实施方式是例示，这些各结构要素和各处理过程的组合可能存在各种变形例，此外，这样的变形例也在本发明的范围内。

(变形例1)

在实施方式中，说明了激活函数由式(1)给出的情况，但是不限于此。关于激活函数，只要针对输入值的输出值连续地取C±W的范围内的值，针对输入值的输出值是唯一地确定的，其曲线图关于与f(x)＝C对应的点点对称即可。激活函数例如也可以代替式(1)而由以下的式(9)给出。

[数式9]

该情况下，代替式(4)、(5)、(6)而由以下的式(10)、(11)、(12)给出梯度

[数式10]

[数式11]

[数式12]

根据本变形例，能够发挥与实施方式相同的作用效果。

(变形例2)

在实施方式中没有特别言及，但是，在某个组件的激活函数的宽度参数W成为规定的阈值以下、且基于该激活函数的输出值比较小的情况下，认为该输出不会对应用处理造成影响。因此，在某个组件的激活函数的宽度参数W成为规定的阈值以下的情况下，也可以不执行仅对基于该激活函数的输出造成影响的运算处理。即，也可以不执行基于该激活函数的运算处理、用于仅对该组件输出的运算处理。例如，也可以按照每个组件删除仅执行这些运算处理的组件。该情况下，不执行不需要的运算处理，因此，能够实现处理的高速化、存储器消耗的削减。

标号说明

100：数据处理系统；130：神经网络处理部；140：学习部。

产业上的可利用性

本发明涉及数据处理系统和数据处理方法。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：使用量子神经网络的分类

数据处理系统和数据处理方法

相关技术

网友询问留言