深度神经网络的泛化能力的度量方法、装置、终端、存储介质

文档序号：1363418 发布日期：2020-08-11 浏览：10次 >En<

阅读说明：本技术 深度神经网络的泛化能力的度量方法、装置、终端、存储介质 (Method, device, terminal and storage medium for measuring generalization capability of deep neural network ) 是由毛宏亮黄敏峰程宝平于 2020-03-10 设计创作，主要内容包括：本发明实施例涉及人工智能领域,公开了一种深度神经网络的泛化能力的度量方法、装置、终端、计算机可读存储介质。本发明中,所述深度神经网络的泛化能力的度量方法,包括：获取待评估的深度神经网络；获取所述深度神经网络输出的分类类别的特征向量；对所述特征向量进行归一化处理,计算归一化处理后的所述特征向量在高维单位球面上的分布面积,将所述分布面积作为所述深度神经网络的泛化能力的度量值；输出所述泛化能力的度量值。本发明能够对深度神经网络的泛化能力进行度量,并且实现比较简单。(The embodiment of the invention relates to the field of artificial intelligence and discloses a method, a device, a terminal and a computer readable storage medium for measuring the generalization ability of a deep neural network. In the present invention, the method for measuring the generalization ability of the deep neural network includes: acquiring a deep neural network to be evaluated; acquiring a feature vector of a classification category output by the deep neural network; carrying out normalization processing on the feature vector, calculating the distribution area of the feature vector on a high-dimensional unit spherical surface after the normalization processing, and taking the distribution area as the measurement value of the generalization capability of the deep neural network; and outputting the measurement value of the generalization ability. The method can measure the generalization ability of the deep neural network, and is simple to implement.)

技术领域

本发明实施例涉及人工智能领域，特别涉及一种深度神经网络的泛化能力的度量方法、装置、终端、计算机可读存储介质。

背景技术

随着深度学习技术的发展，现有以深度神经网络为核心的人工智能技术越来越为公众所熟知。然而，由于深度学习背后不确定的神经网络设计原理，其被广泛认知为“黑箱理论”，缺乏简单的指导原理。

目前针对深度神经网络的泛化能力，基本延续传统机器学习的方法，实践中一般利用方差-偏差原则，通过训练集、验证集及测试集来对神经网络进行泛化能力的评估，同时能够在前述三个数据集(一般要求是验证集)表现良好的神经网络，则被认可为泛化能力强的神经网络，以验证集和测试集(一般只要求验证集)的准确率来作为神经网络的泛化能力的量化度量。但是传统方法在针对高维和过参数化的深度神经网络并不能给出合理恰当的泛化数值。

现有技术主要面向如何提升深度神经网络的泛化能力，例如人脸识别领域通过结合softmax分类损失函数和度量学习(中心损失函数或三元组损失函数)来同时训练神经网络，以期提高神经网络的泛化能力。然而专门给出神经网络泛化能力度量指标的技术目前是匮乏的，往往更多是学术探讨。

发明人发现，相关技术中至少存在如下问题：

目前的技术基本面向提升模型的泛化能力，缺少一种实用方法来度量神经网络的泛化能力的高低，理论方面，如“信息瓶颈”、随机矩阵方法、群论目前也无法直接给出可应用的量化方案。

发明内容

本发明实施方式的目的在于提供一种深度神经网络的泛化能力的度量方法、装置、终端、计算机可读存储介质，能够度量深度神经网络的泛化能力。

为解决上述技术问题，本发明的实施方式提供了一种深度神经网络的泛化能力的度量方法，包括：

获取待评估的深度神经网络；

获取所述深度神经网络输出的分类类别的特征向量；

对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积，将所述分布面积作为所述深度神经网络的泛化能力的度量值；

输出所述泛化能力的度量值。

本发明的实施方式还提供了一种深度神经网络的泛化能力的度量装置，包括：

第一获取模块，用于获取待评估的深度神经网络；

第二获取模块，用于获取所述深度神经网络输出的分类类别的特征向量；

计算模块，对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积，将所述分布面积作为所述深度神经网络的泛化能力的度量值；

输出单元，用于输出所述泛化能力的度量值。

本发明的实施方式还提供了一种终端，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的深度神经网络的泛化能力的度量方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的深度神经网络的泛化能力的度量方法。

本发明实施方式相对于现有技术而言，获取待评估的深度神经网络；获取所述深度神经网络输出的分类类别的特征向量；对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积，将所述分布面积作为所述深度神经网络的泛化能力的度量值；输出所述泛化能力的度量值。本发明能够提供一种深度神经网络的泛化能力的度量方法，实现方法比较简单。

另外，所述对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积的步骤包括：对所述特征向量进行归一化处理，分别生成高维单位球面上的点；获取所述球面的最大凸包，所述最大凸包为所述球面的所有所述点组成的最大凸多边形；计算所述最大凸包的面积，作为所述深度神经网络的泛化能力的度量值。本发明实施例中，依据分类特征向量在高维球面的归一化投影，给出泛化度量的计算流程，实现比较简单。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明的第一实施方式涉及的一种深度神经网络的泛化能力的度量方法的流程示意图；

图2是根据本发明的应用场景涉及的一种深度神经网络的泛化能力的度量方法的流程示意图：

图3是根据本发明另一实施例涉及的一种深度神经网络的泛化能力的度量装置的连接示。

图4是根据本发明另一实施例涉及的一种终端的连接示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种面向深度神经网络的泛化能力的度量方法。其流程如图1所示，具体如下：

步骤11，获取待评估的深度神经网络；

步骤12，获取所述深度神经网络输出的分类类别的特征向量；深度神经网络可以类比为一个分类器，其最终输出可以是分类类别的特征向量。

步骤13，对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积，将所述分布面积作为所述深度神经网络的泛化能力的度量值；

步骤14，输出所述泛化能力的度量值。深度神经网络的泛化能力的度量值可以作为深度神经网络的评价指标之一，以作为是否对所述深度神经网络进行后续处理的参考指标值之一。

上述实施例中，获取待评估的深度神经网络；获取所述深度神经网络输出的分类类别的特征向量；对所述特征向量进行归一化处理，计算归一化处理后的所述特征向量在高维单位球面上的分布面积，将所述分布面积作为所述深度神经网络的泛化能力的度量值；输出所述泛化能力的度量值。本发明能够提供一种深度神经网络的泛化能力的度量方法，实现方法比较简单。

在一个实施例中，步骤13包括：

步骤131，对所述特征向量进行归一化处理，分别生成高维单位球面上的点；

步骤132，获取所述球面的最大凸包，所述最大凸包为所述球面的所有所述点组成的最大凸多边形；

步骤133，计算所述最大凸包的面积，作为所述深度神经网络的泛化能力的度量值。其中，所述计算所述最大凸包的面积的步骤具体包括：将所述最大凸包在各个维度对应的角度，转化为球坐标值；通过高维微积分中的球面面积计算公式，计算所述最大凸包的面积。

所述计算所述最大凸包的面积的步骤具体包括：

A(d)

其中，为最大凸包的面积；

d为空间维数；θ_i为最大凸包在各个维度的角度；

i＝1，…，n；i为高维单位球面上的点的序号；

n为高维单位球面上的点的总数量。

所述泛化能力的度量值的数值范围为其中0表示泛化能力为零，即所有输入归为一类；表示最大分类能力，即全球面积。

以下描述本发明的应用场景。本应用场景涉及一种可计算的实用工具，在给定范围内来度量神经网络的泛化能力，利用现有神经网络的直接输出结果，不改变任何神经网络结构和工作流程，简单实用。

本发明设计思想为：如图2所示，目前深度神经网络可以类比为一个分类器，其最终输出是分类类别的特征向量，利用泛化能力提升技术，尤其L2范数技术，将最后的特征向量归一化到高维单位球面上，经过归一化操作，使其数值特征变为球面上的一个，通过计算分类类别的归一化特征向量在球面上的分布面积，来刻画深度神经网络的泛化能力。

其中，高维单位球面区域面积(本方案定义的度量名字为ms-metric)”的计算，其计算流程如下：

计算球面的最大凸包(convex hull)，也就是球面有限点集的最大凸多边形，该步骤可参考现有计算几何关于“最大凸包计算”的算法获得，当然其中需要利用球面坐标，而非一般的欧式坐标。

找到球面最大凸包后，通过高维微积分中的球面面积计算公式，利用凸包对应的角度，转化为球坐标，计算凸包面积，一般公式如下

具体可以利用数值积分方法或者蒙特卡洛方法计算，d为空间维数，θ_i，i＝1，...，n为凸包在各个维度的角度；

上述获得的最大凸包面积即为本技术方案定义的神经网络泛化能力数值，一般为d维球面，该泛化能力数值范围为其中0表示泛化能力为零，即所有输入归为一类，另一端则是最大分类能力，即全球面积。

综上述步骤，完成深度神经网络的泛化数值计算。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明实施例具有以下有益效果：

现今面向深度神经网络泛化能力的计算技术存在空白，更多是围绕如何提升深度神经网络的泛化性。本发明实施例提供一种度量深度神经网络的泛化能力的方法，能够利用可计算流程量化相应数值。具体为：依据分类特征向量在高维球面的归一化投影，利用计算几何和数值积分方法，给出度量泛化能力的计算流程；通过利用现有神经网络的类别特征向量，能够基于高维球面区域面积，对深度神经网络的泛化能力进行度量。

本发明的另一实施方式涉及一种面向深度神经网络的泛化能力的度量装置。其结构如图3所示，具体如下：

第一获取模块，用于获取待评估的深度神经网络；

第二获取模块，用于获取所述深度神经网络输出的分类类别的特征向量；

输出单元，用于输出所述泛化能力的度量值。

所述计算模块包括：

归一化处理单元，对所述特征向量进行归一化处理，分别生成高维单位球面上的点；

获取单元，获取所述球面的最大凸包，所述最大凸包为所述球面的所有所述点组成的最大凸多边形；

计算单元，计算所述最大凸包的面积，作为所述深度神经网络的泛化能力的度量值。所述计算单元具体包括：将所述最大凸包在各个维度对应的角度，转化为球坐标系；通过高维微积分中的球面面积计算公式，计算所述最大凸包的面积。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明实施例还涉及一种终端，如图4所示，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的深度神经网络的泛化能力的度量方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于训练超网络的方法和装置

深度神经网络的泛化能力的度量方法、装置、终端、存储介质

相关技术

网友询问留言