获取神经网络模型的方法、图像处理方法及装置

文档序号:169818 发布日期:2021-10-29 浏览:11次 >En<

阅读说明:本技术 获取神经网络模型的方法、图像处理方法及装置 (Method for obtaining neural network model, image processing method and device ) 是由 田沈晶 黄泽毅 徐凯翔 唐少华 于 2020-04-29 设计创作,主要内容包括:本申请公开了人工智能领域中的一种获取神经网络模型的方法、图像处理方法及装置。其中,获取神经网络模型的方法包括:获取预训练的超网络模型,预训练的超网络模型是基于源数据集训练得到的;获取目标数据集,目标数据集对应的任务与源数据集对应的任务相同;基于目标数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型;在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。本申请的方法能够在获得所需的神经网络模型的过程中降低训练成本,提高神经网络模型的性能。(The application discloses a method for acquiring a neural network model, an image processing method and an image processing device in the field of artificial intelligence. The method for acquiring the neural network model comprises the following steps: acquiring a pre-trained super network model, wherein the pre-trained super network model is obtained based on source data set training; acquiring a target data set, wherein the task corresponding to the target data set is the same as the task corresponding to the source data set; performing transfer learning on the pre-trained hyper-network model based on the target data set to obtain a transfer-learned hyper-network model; and searching the sub-network model in the ultra-network model after the transfer learning to obtain a target neural network model. The method can reduce the training cost and improve the performance of the neural network model in the process of obtaining the required neural network model.)

获取神经网络模型的方法、图像处理方法及装置

技术领域

本申请涉及人工智能领域,并且更具体地,涉及一种获取神经网络模型的方法、图像处理方法及装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。

随着人工智能技术的快速发展,神经网络模型(例如,卷积神经网络模型)的性能得到了持续的提升,神经网络模型在图像、视频以及语音等多种媒体信号的处理与分析中也取得了很大的成就。以图像识别为例,深度神经网络模型以碾压级别的优势领先传统计算机视觉方法。然而,训练一个好的深度神经网络模型需要大量的专家经验。近年来,借助自动机器学习(automated machine learning,AutoML)技术自动搜索神经网络模型逐渐成为计算机视觉领域的热点。AutoML可以得到比人工设计更优的神经网络模型。然而,AutoML所需要的训练资源,例如,训练机器、训练数据等,往往比普通神经网络模型大得多,而且AutoML的训练成本也远远高于普通神经网络模型的训练成本。在小数据场景下,由于没有足够的训练数据,AutoML通常很难直接训练得到优秀的神经网络模型。

因此,如何通过AutoML获得需要的神经网络模型成为一个亟待解决的问题。

发明内容

本申请提供一种获取神经网络模型的方法、图像处理方法及装置,在获得所需的神经网络模型的过程中降低训练成本,提高神经网络模型的性能。

第一方面,提供了一种获取神经网络模型方法,该方法包括:获取预训练的超网络模型,预训练的超网络模型是基于源数据集训练得到的;获取目标数据集,目标数据集对应的任务与源数据集对应的任务相同;基于目标数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型;在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

其中,该源数据集可以采用大数据量的数据集,这样可以保证超网络模型训练充分,能够得到精确度更高的超网络模型。

需要说明的是,该源数据集可以是与目标神经网络模型所需要执行的任务相关的数据集。也就是说预训练的超网络模型中的子网络模型与目标神经网络模型执行的任务是一致的。例如,二者均用于图像分类;或者,二者均用于图像分割;或者二者均用于目标检测。

例如,当目标神经网络模型用于图像分类时,该源数据集可以为公开数据集ImageNet。

目标数据集可以是由用户输入的数据集,也可以是从其他设备获取的数据集。

基于目标数据集对预训练的超网络模型进行迁移学习可以为基于目标数据集微调预训练的超网络模型。

对预训练的超网络模型进行迁移学习指的是迁移预训练的超网络模型的权重。

目标神经网络模型可以指的是性能指标满足目标性能指标的神经网络模型。也就是说,可以在该迁移学习后的超网络模型中搜索得到目标子网络模型,根据目标子网络模型确定目标神经网络模型。该目标子网络模型可以是性能指标满足目标性能指标的子网络模型。目标子网络模型可以为一个子网络模型,也可以为多个子网络模型。

其中,子网络模型的性能指标可以包括子网络模型的推理精度、子网络模型的硬件开销或子网络模型的推理时长等。目标性能指标可以包括目标精度、目标开销或目标推理时长等。

示例性地,在迁移学习后的超网络模型中搜索子网络模型,可以为通过强化学习算法在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

在本申请实施例中,通过将预训练的超网络模型迁移至目标数据集,即使在目标数据集较小的情况下,也能得到性能较好的超网络模型,进而搜索得到目标神经网络模型。赋能小数据场景的应用,极大地提高AutoML在小数据场景的精度。

同时,对于用户的不同需求,例如,用户的开销/精度需求,通过搜索超网络模型中的子网络模型能够得到满足用户需求的神经网络模型,适配目标数据集,以满足用户的需求,例如,满足用户的开销/精度需求。

同时,超网络模型的权重在不同数据集之间共享,源数据集和目标数据集均是与相同的任务相关的数据集,可以实现AutoML的高效迁移学习,迁移时仅对超网络模型的权重进行微调,无需调整超网络模型的结构,能够大大提高AutoML的迁移效率,使其训练所需时长降低至少一个数量级,甚至达到普通神经网络模型的训练时长。

此外,本申请实施例中提供的超网络模型的迁移时间与普通神经网络模型迁移的时间接近。也就是说,相较于通过普通神经网络模型的迁移学习得到目标神经网络模型的方法,在相同的训练时长下,本申请实施例中的获取神经网络模型的方法,更能满足用户精细化的开销/精度需求。在相同的开销的情况下,得到精度更高的目标神经网络模型。

此外,对于同样的任务,例如图像分类任务,在用户需要多个神经网络模型的情况下,无需针对每个部署方案或者说用户需求分别设计和训练神经网络模型,只需要训练一次超网络模型,超网络模型的权重在不同数据集之间共享或者说迁移至不同数据集,得到满足用户不同的开销/精度需求的神经网络模型,大大降低了训练成本。

结合第一方面,在第一方面的某些实现方式中,预训练的超网络模型是通过渐进收缩法训练得到的。

具体地,通过渐进收缩法训练超网络模型可以包括:先训练最大子网络模型,然后逐步训练卷积核可变的子网络模型、层数可变的子网络模型且通道数可变的子网络模型。

其中,最大子网络模型指的是超网络模型中卷积核(kernel)最大、层数(depth)最大且通道数(width)最大的一个子网络模型。

具体地,可以通过对最大子网络模型进行知识蒸馏的形式训练卷积核可变的子网络模型、层数可变的子网络模型、通道数可变的子网络模型。

由于子网络模型之间权值共享,在训练超网络模型时,不同的子网络模型之间可能出现干扰。根据本申请实施例中的方案,通过渐进收缩算法训练减少了了训练过程中不同大小的子网络模型相互影响,得到的超网络模型能够支持多种不同的架构设置。例如,多种不同的架构设置包括不同的层数、不同的通道数、不同的卷积核大小的子网络模型等。超网络模型训练完成后可以从该超网络模型中选择合适的子网络模型,而无需对搜索得到的子网络模型进行额外的训练,或者说子网络模型无需重训练,也可以保证子网络模型的精度满足预训练的要求。在超网络模型的训练过程中也无需独立训练每个子网络模型,该超网络模型中的子网络模型能够达到与独立训练的子网络模型相近的准确率。

结合第一方面,在第一方面的某些实现方式中,基于目标数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型,包括:从所述预训练的超网络模型中选择一个子网络模型,基于所述目标数据集计算所述子网络模型的权重梯度,基于所述子网络模型的权重梯度更新所述子网络模型的权重,得到更新后的子网络模型,基于更新后的子网络模型得到更新后的超网络模型;重复上述步骤,直至所述更新后的超网络模型满足终止条件,得到所述迁移学习后的超网络模型;其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

也就是说,在每次迭代训练中,只激活单路径的子网络模型,或者可以理解为从超网络模型中只选择一个子网络模型,更新该子网络模型的权重,继续迭代直至训练完成。在每次迭代训练时,只有被选择的子网络模型的权重被激活和更新。

根据本申请实施例的方案,通过单路算法迁移超网络模型,能够均匀采样子网络模型,并对其进行训练,提高训练效果。此外,能够减少内存空间,实现高效训练。

结合第一方面,在第一方面的某些实现方式中,所述基于所述目标数据集对所述预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型,包括:从所述预训练的超网络模型中选择Nb个子网络模型,基于所述目标数据集计算所述Nb个子网络模型的权重梯度,基于所述Nb个子网络模型的权重梯度更新所述Nb个子网络模型的权重,得到更新后的超网络模型,Nb为正整数;

重复上述步骤,直至所述更新后的超网络模型满足终止条件,得到所述迁移学习后的超网络模型,其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

在每次选择子网络模型时,只激活单路径的子网络模型,或者可以理解为每次从超网络模型选择子网络模型时,只选择一个子网络模型。选择了Nb个子网络模型也可以理解为选择Nb次子网络模型。

更新Nb个子网络模型的权重也就是更新超网络模型的权重。

示例性地,更新超网络模型权重,可以包括:通过当前超网络模型的权重减去Nb个子网络模型的权重梯度来更新超网络模型的权重。

可替换地,更新超网络模型权重,可以包括:通过当前超网络模型的权重减去Nb个子网络模型的权重梯度与学习率的乘积来更新超网络模型的权重。

示例性地,更新后的超网络模型的推理精度可以为超网络模型中至少一个子网络模型的推理精度。

由于子网络模型之间可能存在权重共享,若根据每次反向传播计算得到的权重梯度更新当前子网络模型的权重,会对其他共享权重的子网络模型产生干扰。根据本申请实施例的方案,每次迭代中执行多次前向传播和反向传播,在一次迭代中累计多个子网络模型的权重梯度,仅更新一次超网络模型的权重,能够减少不同子网络模型之间的相互干扰,提高超网络模型的精度以及提高超网络模型的训练速度。

结合第一方面,在第一方面的某些实现方式中,在迁移后的超网络模型中搜索子网络模型,得到目标神经网络模型,包括:

步骤一:根据所述迁移学习后的超网络模型确定n个第一子网络模型,n为大于1的整数;

步骤二:调整所述n个第一子网络模型的结构,得到n个第二子网络模型;

步骤三:从所述n个第一子网络模型和所述n个第二子网络模型中选择n个第三子网络模型,将所述n个第三子网络模型作为步骤二中的n个第一子网络模型;

重复上述步骤二至步骤三,直至所述n个第三子网络模型满足搜索终止条件,所述搜索终止条件包括以下至少一种:重复次数大于或等于第二迭代次数,或者,所述n个第三子网络模型中的至少p个第三子网络模型的推理精度大于或等于目标精度;

根据所述n个第三子网络模型确定目标神经网络模型。

例如,从迁移学习后的超网络模型中抽取n个子网络模型,将该n个子网络模型即为n个第一子网络模型。该n个第一子网络模型可以作为一个种群。

例如,调整n个第一子网络模型的结构可以为通过交叉变异等操作调整第一子网络模型的结构。

结合第一方面,在第一方面的某些实现方式中,根据所述迁移学习后的超网络模型确定n个第一子网络模型,包括:在所述迁移学习后的超网络模型中选择n个第四子网络模型;获取所述n个第四子网络模型在目标设备上的硬件开销;基于所述硬件开销调整所述n个第四子网络模型的结构,得到所述n个第一子网络模型。

可选地,在迁移后的超网络模型中选择n个第四子网络模型可以为随机选择n个第四子网络模型。

可选地,根据n个第四子网络模型在目标设备上的硬件开销调整子网络模型结构,可以包括:根据子网络模型结构调整的概率调整子网络模型结构,调整后的子网络模型能够满足目标开销。其中,子网络模型结构调整的概率是根据子网络模型的硬件开销确定的。

示例性地,对于硬件开销大的子网络模型,将当前子网络模型调整为更小的子网络模型的概率大于将当前子网络模型调整为更大的子网络模型的概率。对于硬件开销小的子网络模型,将当前子网络模型调整为更大的子网络模型的概率大于将当前子网络模型调整为更小的子网络模型的概率。其中,硬件开销大小可以是相对于目标开销确定的。例如,大于目标开销的子网络模型可以视为硬件开销大的子网络模型,小于目标开销的子网络模型可以视为硬件开销小的子网络模型。可替换地,硬件开销的大小也可以是相对于其他基准确定的,本申请实施例对此不做限定。

例如,该目标设备可以包括GPU或NPU等。

根据本申请实施例的方案,采用启发式的搜索方式,可以感知子网络模型在目标设备上的硬件开销,基于硬件开销调整子网络模型的结构,然后进行搜索,能够使最终的子网络模型能够满足目标开销。

第二方面,提供了一种图像处理方法,该方法包括:获取待处理图像;采用目标神经网络模型对待处理图像进行处理,得到待处理图像的处理结果;其中,目标神经网络模型是通过在超网络模型中搜索子网络模型得到的,超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,预训练的超网络模型是基于源数据集训练得到的,目标数据集对应的任务与源数据集对应的任务相同。

本申请中,由于目标神经网络模型是采用上述第一方面的方法得到的,比较符合或者贴近神经网络模型的应用需求,利用这样的神经网络模型进行图像分类,能够取得较好的图像分类效果(例如,分类结果更准确,等等)。即使在目标数据集较小的情况下,也能得到性能较好的超网络模型,赋能小数据场景的应用,极大地提高AutoML在小数据场景的精度,进而得到满足不同用户需求的目标神经网络模型。

结合第二方面,在第二方面的某些实现方式中,预训练的超网络模型是通过渐进收缩法训练得到的。

结合第二方面,在第二方面的某些实现方式中,超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,包括:超网络模型是通过从预训练的超网络模型中选择一个子网络模型,基于目标数据集计算子网络模型的权重梯度,基于子网络模型的权重梯度更新子网络模型的权重,得到更新后的子网络模型,基于所述更新后的子网络模型得到更新后的超网络模型;重复上述步骤,直至更新后的超网络模型满足终止条件得到的;其中,终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;更新后的超网络模型的推理精度大于或等于第一推理精度。

结合第二方面,在第二方面的某些实现方式中,超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,包括:所述超网络模型是通过从所述预训练的超网络模型中选择Nb个子网络模型,基于所述目标数据集计算所述Nb个子网络模型的权重梯度,基于所述Nb个子网络模型的权重梯度更新所述Nb个子网络模型的权重,得到更新后的Nb个子网络模型,基于所述更新后的Nb个子网络模型得到更新后的超网络模型,Nb为正整数;重复上述步骤,直至更新后的超网络模型满足终止条件得到的,其中,终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;更新后的超网络模型的推理精度大于或等于第一推理精度。

结合第二方面,在第二方面的某些实现方式中,目标神经网络模型是通过在超网络模型中搜索子网络模型得到的,包括:目标神经网络模型是通过根据超网络模型确定n个第一子网络模型,n为大于1的整数;调整n个第一子网络模型的结构,得到n个第二子网络模型;从n个第一子网络模型和n个第二子网络模型中选择n个第三子网络模型,将n个第三子网络模型更新为n个第一子网络模型;重复上述步骤,直至n个第三子网络模型满足搜索终止条件;根据n个第三子网络模型确定的;其中,搜索终止条件包括以下至少一种:重复次数大于或等于第二迭代次数,或者,n个第三子网络模型中的至少p个第三子网络模型的推理精度大于或等于目标精度。

结合第二方面,在第二方面的某些实现方式中,根据超网络模型确定n个第一子网络模型,包括:在超网络模型中选择n个第四子网络模型;获取n个第四子网络模型在目标设备上的硬件开销;基于硬件开销调整n个第四子网络模型的结构,得到n个第一子网络模型。

第三方面,提供了一种获取神经网络模型的装置,装置包括用于执行上述第一方面以及第一方面中的任意一种实现方式中的方法的模块或单元。

第四方面,提供了一种图像处理装置,装置包括用于执行上述第二方面以及第二方面中的任意一种实现方式中的方法的模块或单元。

应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面、第三方面和第四方面中相同的内容。

第五方面,提供了一种获取神经网络模型的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面以及第一方面中的任意一种实现方式中的方法。

上述第五方面中的处理器既可以是中央处理器(central processing unit,CPU),也可以是CPU与神经网络模型运算处理器的组合,这里的神经网络模型运算处理器可以包括图形处理器(graphics processing unit,GPU)、神经网络模型处理器(neural-network processing unit,NPU)和张量处理器(tensor processing unit,TPU)等等。其中,TPU是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。

第六方面,提供了一种图像处理装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第二方面以及第二方面中的任意一种实现方式中的方法。

上述第六方面中的处理器既可以是中央处理器,也可以是CPU与神经网络模型运算处理器的组合,这里的神经网络模型运算处理器可以包括图形处理器、神经网络模型处理器和张量处理器等等。其中,TPU是谷歌为机器学习全定制的人工智能加速器专用集成电路。

第七方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面或第二方面中的任意一种实现方式中的方法。

第八方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第九方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面或第二方面中的任意一种实现方式中的方法。

可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第二方面中的任意一种实现方式中的方法。

上述芯片具体可以是现场可编程门阵列(field-programmable gate array,FPGA)或者专用集成电路(application-specific integrated circuit,ASIC)。

附图说明

图1是本申请实施例提供的一种人工智能主体框架示意图;

图2为本申请实施例提供的一种系统架构的结构示意图;

图3为本申请实施例提供的一种卷积神经网络模型的结构示意图;

图4为本申请实施例提供的另一种卷积神经网络模型的结构示意图;

图5为本申请实施例提供的一种芯片的硬件结构示意图;

图6为本申请实施例提供的一种系统架构的示意图;

图7为本申请实施例提供的Automl的结构示意图;

图8为本申请实施例提供的一种获取神经网络模型的系统的结构示意图;

图9为本申请实施例提供的一种获取神经网络模型的方法的示意性流程图;

图10为本申请实施例提供的一种超网络模型的示意性框图;

图11为本申请实施例提供的一种渐进收缩法的示意性流程图;

图12为本申请实施例提供的一种获取神经网络模型的方法的示意性流程图;

图13为本申请实施例提供的图像处理方法的示意性流程图;

图14是本申请实施例提供的获取神经网络模型的装置的示意性框图;

图15是本申请实施例提供的图像处理装置的示意性框图;

图16是本申请实施例提供的获取神经网络模型的装置的示意性框图;

图17是本申请实施例提供的图像处理装置的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“信息技术(information technology,IT)价值链”(垂直轴)两个维度对上述人工智能主题框架进行详细的阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。

(1)基础设施:

基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。

基础设施可以通过传感器与外部沟通,基础设施的计算能力可以由智能芯片提供。

这里的智能芯片可以是中央处理器(central processing unit,CPU)、神经网络模型处理器(neural-network processing unit,NPU)、图形处理器(graphics processingunit,GPU)、专门应用的集成电路(application specific integrated circuit,ASIC)以及现场可编程门阵列(field programmable gate array,FPGA)等硬件加速芯片。

基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。

例如,对于基础设施来说,可以通过传感器和外部沟通获取数据,然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据:

基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理:

上述数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等处理方式。

其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。

(4)通用能力:

对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。

(5)智能产品及行业应用:

智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。

本申请实施例可以应用在人工智能中的很多领域,例如,智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市等领域。

具体地,本申请实施例中的获取神经网络模型的方法可以具体应用在自动驾驶、图像分类、图像检索、图像语义分割、图像质量增强、图像超分辨率和自然语言处理等需要使用(深度)神经网络模型的领域。

下面对相册图片分类和平安城市这两种应用场景进行简单的介绍。

相册图片分类:

当用户在终端设备(例如,手机)或者云盘上存储了大量的图片时,通过对相册中图像进行识别可以方便用户或者系统对相册进行分类管理,提升用户体验。

利用本申请实施例的获取神经网络模型方法,能够获得或者优化适用于相册分类的神经网络模型。接下来就可以利用该神经网络模型对图片进行分类,从而为不同的类别的图片打上标签,便于用户查看和查找。另外,这些图片的分类标签也可以提供给相册管理系统进行分类管理,节省用户的管理时间,提高相册管理的效率,提升用户体验。

平安城市场景下的属性识别:

平安城市场景下,需要进行多种属性识别,例如行人属性识别和骑行属性识别,深度神经网络模型凭借着其强大的能力在多种属性识别中发挥着重要的作用。通过采用本申请实施例的获取神经网络模型方法,能够获得或优化适用于平安城市场景下进行属性识别的神经网络模型。接下来就可以利用该神经网络模型对输入的道路画面进行处理,从而识别出道路画面中的不同的属性信息。

由于本申请实施例涉及大量神经网络模型的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络模型的相关术语和概念进行介绍。

(1)神经网络模型

神经网络模型可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:

其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络模型中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络模型是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络模型

深度神经网络模型(deep neural network,DNN),也称多层神经网络模型,可以理解为具有多层隐含层的神经网络模型。按照不同层的位置对DNN进行划分,DNN内部的神经网络模型可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,系数W和偏移向量的数量也比较多。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上,第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是,输入层是没有W参数的。在深度神经网络模型中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络模型的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络模型的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络模型

卷积神经网络模型(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络模型。卷积神经网络模型包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络模型中对输入信号进行卷积处理的神经元层。在卷积神经网络模型的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式化,在卷积神经网络模型的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络模型各层之间的连接,同时又降低了过拟合的风险。

(4)循环神经网络模型(recurrent neural networks,RNN)是用来处理序列数据的。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络模型虽然解决了很多难题,但是却仍然对很多问题无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐含层本层之间的节点不再无连接而是有连接的,并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上,RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。

(5)损失函数

在训练深度神经网络模型的过程中,因为希望深度神经网络模型的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络模型的权重向量(当然,在第一次更新之前通常会有化的过程,即为深度神经网络模型中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objectivefunction),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络模型的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播算法

神经网络模型可以采用误差反向传播(back propagation,BP)算法在训练过程中修正的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。

如图2所示,本申请实施例提供了一种系统架构100。在图2中,数据采集设备160用于采集训练数据。针对用于图像分类的神经网络模型来说,训练数据可以包括训练图像以及训练图像对应的分类结果,其中,训练图像的结果可以是人工预先标注的结果。

在采集到训练数据之后,数据采集设备160将这些训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述,训练设备120对输入的原始图像进行处理,将输出的图像与原始图像进行对比,直到训练设备120输出的图像与原始图像的差值小于一定的阈值,从而完成目标模型/规则101的训练。在本申请实施例中,训练设备120可以用于获取预训练的超网络模型,基于目标数据集迁移预训练的超网络模型,并在迁移后的超网络模型中搜索子网络模型,得到目标模型/规则101。目标数据集可以存储于数据库130中。在一些可能的实现方式中,训练设备120也可以用于预训练超网络模型。该超网络模型是基于源数据集训练得到的。该源数据集也可以存储于数据库130中。

上述目标模型/规则101能够用于实现本申请实施例的图像处理方法。本申请实施例中的目标模型/规则101具体可以为神经网络模型。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的,例如由客户设备140输入的目标数据集。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中,如应用于图2所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)AR/虚拟现实(virtual reality,VR),车载终端等,还可以是服务器或者云端等。在图2中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:客户设备输入的待处理图像。

预处理模块113用于根据I/O接口112接收到的输入数据(如待处理图像)进行预处理,在本申请实施例中,也可以没有预处理模块113,而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后,I/O接口112将处理结果,如上述得到的图像的分类结果返回给客户设备140,从而提供给用户。

值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则101,该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。

在图2中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。

值得注意的是,图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图2中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。

如图2所示,根据训练设备120训练得到目标模型/规则101,该目标模型/规则101可以是本申请实施例中的神经网络模型,具体的,本申请实施例构建的神经网络模型可以包括CNN,深度卷积神经网络模型(deep convolutional neural networks,DCNN)、循环神经网络模型(recurrent neural network,RNNS)等等。

由于CNN是一种非常常见的神经网络模型,下面结合图3重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述,卷积神经网络模型是一种带有卷积结构的深度神经网络模型,是一种深度学习(deep learning)架构,深度学习架构是指通过神经网络模型更新的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络模型,该前馈人工神经网络模型中的各个神经元可以对输入其中的图像作出响应。

本申请实施例的图像处理方法具体采用的神经网络模型的结构可以如图3所示。在图3中,卷积神经网络模型(CNN)200可以包括输入层210,卷积层/池化层220(其中池化层为可选的),以及神经网络模型层230。其中,输入层210可以获取待处理图像,并将获取到的待处理图像交由卷积层/池化层220以及后面的神经网络模型层230进行处理,可以得到图像的处理结果。下面对图3中的CNN 200中内部的层结构进行详细的介绍。

卷积层/池化层220:

卷积层:

如图3所示卷积层/池化层220可以包括如示例221-226层,举例来说:在一种实现中,221层为卷积层,222层为池化层,223层为卷积层,224层为池化层,225为卷积层,226为池化层;在另一种实现方式中,221、222为卷积层,223为池化层,224、225为卷积层,226为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例,介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同,再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络模型200进行正确的预测。

当卷积神经网络模型200有多个卷积层的时候,越往前的卷积层(例如221)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络模型200深度的加深,越往后的卷积层(例如226)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。

池化层:

由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在如图3中220所示例的221-226各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络模型层230:

在经过卷积层/池化层220的处理后,卷积神经网络模型200还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层220只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络模型200需要利用神经网络模型层230来生成一个或者一组所需要的类的数量的输出。因此,在神经网络模型层230中可以包括多层隐含层(如图3所示的231、232至23n)以及输出层240,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。

在神经网络模型层230中的多层隐含层之后,也就是整个卷积神经网络模型200的最后层为输出层240,该输出层240具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络模型200的前向传播(如图3由210至240方向的传播为前向传播)完成,反向传播(如图3由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络模型200的损失,及卷积神经网络模型200通过输出层输出的结果和理想结果之间的误差。

本申请实施例的图像处理方法具体采用的神经网络模型的结构可以如图4所示。在图4中,卷积神经网络模型(CNN)200可以包括输入层210,卷积层/池化层220(其中池化层为可选的),以及神经网络模型层230。与图3相比,图4中的卷积层/池化层220中的多个卷积层/池化层并行,将分别提取的特征均输入给神经网络模型层230进行处理。

需要说明的是,图3和图4所示的卷积神经网络模型仅作为一种本申请实施例的图像处理方法的两种可能的卷积神经网络模型的示例。在具体的应用中,本申请实施例的图像处理方法所采用的神经网络模型还可以以其他网络模型的形式存在。

另外,采用本申请实施例的获取神经网络模型方法得到的神经网络模型可以用于本申请实施例中的图像处理方法。

图5为本申请实施例提供的一种芯片的硬件结构,该芯片包括神经网络模型处理器50。该芯片可以被设置在如图2所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图2所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则101。如图3和图4所示的卷积神经网络模型中各层的算法均可在如图5所示的芯片中得以实现。

神经网络模型处理器NPU 50作为协处理器挂载到主中央处理器(centralprocessing unit,CPU)(host CPU)上,由主CPU分配任务。NPU的核心部分为运算电路503,控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中,运算电路503内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路503是通用的矩阵处理器。

举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)508中。

向量计算单元507可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元507可以用于神经网络模型中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local response normalization)等。

在一些实现种,向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如,向量计算单元507可以将非线性函数应用到运算电路503的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元507生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路503的激活输入,例如用于在神经网络模型中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

存储单元访问控制器505(direct memory access controller,DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502,以及将统一存储器506中的数据存入外部存储器。

总线接口单元(bus interface unit,BIU)510,用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509,用于存储控制器504使用的指令;

控制器504,用于调用指存储器509中缓存的指令,实现控制该运算加速器的工作过程。

一般地,统一存储器506,输入存储器501,权重存储器502以及取指存储器509均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,简称DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。

其中,神经网络模型,例如,图3和图4所示的卷积神经网络模型中各层的运算可以由运算电路503或向量计算单元507执行。示例性地,本申请实施例中对超网络模型进行预训练的运算可以由运算电路503或向量计算单元507执行。示例性地,本申请实施例中基于目标数据集迁移预训练的神经网络模型的运算可以由运算电路503或向量计算单元507执行。示例性地,本申请实施例中的目标神经网络模型中的各层的运算可以由运算电路503或向量计算单元507执行。

上文中介绍的图2中的执行设备110能够执行本申请实施例的图像处理方法的各个步骤,图5所示的芯片也可以用于执行本申请实施例的图像处理方法的各个步骤。

上文中介绍的图2中的训练设备110能够执行本申请实施例的获取神经网络模型的方法的各个步骤,图5所示的芯片也可以用于执行本申请实施例的获取神经网络模型的各个步骤。

如图6所示,本申请实施例提供了一种系统架构300。该系统架构包括本地设备301、本地设备302以及执行设备310和数据存储系统350,其中,本地设备301和本地设备302通过通信网络与执行设备310连接。

执行设备310可以由一个或多个服务器实现。可选的,执行设备310可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备310可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备310可以使用数据存储系统350中的数据,或者调用数据存储系统350中的程序代码来实现本申请实施例的获取神经网络模型方法或图像处理方法。

具体地,在一种实现方式中,执行设备310可以执行以下过程:

获取预训练的超网络模型,预训练的超网络模型是基于源数据集训练得到的;

获取目标数据集;

基于目标数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型;

在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

通过上述过程执行设备110能够获取一个目标神经网络模型,该目标神经网络模型可以用于图像分类或者进行图像处理等等。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备310进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备310进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。

在一种实现方式中,本地设备301、本地设备302从执行设备310获取到目标神经网络模型的相关参数,将目标神经网络模型部署在本地设备301、本地设备302上,利用该目标神经网络模型进行图像分类或者图像处理等等。

在另一种实现中,执行设备310上可以直接部署目标神经网络模型,执行设备310通过从本地设备301和本地设备302获取待处理图像,并采用目标神经网络模型对待处理图像进行分类或者其他类型的图像处理。

上述执行设备310也可以为云端设备,此时,执行设备310可以部署在云端;或者,上述执行设备310也可以为终端设备,此时,执行设备310可以部署在用户终端侧,本申请实施例对此并不限定。

在自动机器学习(auto machine learning,AutoML)云服务平台中,用户可以根据自身的需求和任务定制神经网络模型。基于自动机器学习的云平台可以根据用户设定的限制条件,进行网络设计和搜索,并将网络设计和搜索得到的网络模型训练完成提供给用户。限制条件可以包括网络模型的类型、网络模型的精度、网络模型的时延以及网络模型的运行平台等。

利用本申请实施例提供的获取神经网络模型方法,能够根据用户的需求获得神经网络模型,提升了获得的神经网络模型的性能,提高了获取该神经网络模型过程中的处理效率。

图7示出了AutoML框架的示意性结构图。如图7所示,AutoML通常预先定义一个搜索空间(search space),该搜索空间指的是可搜索的范围。AutoML在搜索空间内不断产生子网络模型配置,并形成评价-反馈-再次产生子网络模型配置的闭环,直到最终搜索得到优秀的神经网络模型。

具体地,搜索空间根据AutoML具体任务确定,例如,当具体任务为神经网络模型,搜索空间可以包括多个神经网络模型结构单元,最终的神经网络模型就是通过搜索空间中的这些神经网络模型单元组合形成的。

控制器710用于在搜索空间内选择不同的配置分配给评估器720进行评估,然后根据评估器720度量反馈的评估结果进行策略更新,或者说是进行配置更新。例如,控制器710可以在搜索空间中选择神经网络模型结构单元,或者说搜索神经网络模型结构单元,并进行组合得到一个或多个子网络模型,从组合得到的子网络模型中选择一个子网络模型,将子网络模型配置分配给评估器720进行评估。

评估器720用于评估不同配置的性能指标,并将得到的评估结果反馈给控制器710。例如,评估器720可以针对控制器710选择的子网络模型的性能指标进行评估。例如,性能指标可以包括神经网络模型的准确率和网络模型的时延等。将评估的结果反馈给优化器,用于控制器710更新配置,直至得到目标神经网络模型。

然而,AutoML的训练成本远远高于普通神经网络模型的训练成本。例如,AutoML的训练时间、计算量等训练成本至少比普通神经网络模型高一个数据量级。

此外,AutoML通常需要大量数据才能得到优秀的神经网络模型,在部分小数据场景下,AutoML往往很难直接训练产生优秀的模型。

通过迁移学习(transfer learning)能够将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。通常来说通过迁移学习能够使神经网络模型赋能小数据集,降低训练资源。然而,通过迁移学习迁移神经网络模型,可能也无法满足用户的需求。例如,无法满足用户的开销需求。在迁移前得到的神经网络模型不一定能够满足用户的开销需求,而迁移后的神经网络模型与迁移前的神经网络模型的开销基本一致,如果迁移前的神经网络模型无法满足用户的开销需求,那么迁移后的神经网络模型自然也无法满足用户的开销需求。再如,无法满足用户的精度需求。迁移前的神经网络模型是基于源数据集训练得到的,迁移之后得到的神经网络模型的架构基本不变。如果该架构先天不足,或者说不适合目标任务,那么一味地基于目标数据集进行参数调优,也无法显著提升神经网络模型的效果,即该架构的神经网络模型的精度可能无法满足用户的精度需求。

因此,如何有效降低AutoML所需要的训练资源,让AutoML赋能小数据集是当前AutoML落地需要克服的重要挑战。

本申请实施例提供了一种基于AutoML获取神经网络模型的方法,该方法可以由获取神经网络的系统执行。图8是本申请实施例的获取神经网络模型的系统800的示意性框图。

为了更好的了解本申请实施例中的获取神经网络模型的方法的执行过程,下面对图8中的各个模块的功能进行简单的描述。

获取神经网络模型的系统800可以是云服务设备,也可以是移动终端,例如,电脑、服务器等运算能力足以用来获取神经网络模型的装置,也可以是云服务设备和移动终端构成的系统。

该获取神经网络模型的系统800主要包括:预训练模块810、输入模块820、迁移模块830、搜索模块840、测试模块850和输出模块860。

预训练模块810可以用于进行超网络模型的预训练,得到超网络模型的权重。

其中,超网络模型指的是可以涵盖搜索空间中所有的子网络模型的模型。超网络模型的权重即为所有子网络模型的权重。也就是说子网络模型的权重可以从超网络模型中获取。

该超网络模型可以是预先定义的AutoML的超网络模型。例如,超网络模型可以是根据神经网络模型所需要执行的任务定义的。

需要说明的是,该预训练模块810为可选模块,预训练的过程可以由其他设备完成。在该情况下,迁移模块830可以接收由其他设备预训练的超网络模型。

可选地,该预训练可以是离线训练,即该预训练的过程可以是在离线阶段完成的。应理解,本申请实施例中的在线和离线可以相对于用户而言的不同阶段。或者可以理解为,处于离线阶段的系统800不受用户影响,离线训练得到的超网络模型可以存储起来,用于之后在线阶段的处理过程。处于在线阶段的系统800可以接受用户的输入,并根据用户的输入执行相应操作。例如,该预训练的过程可以是离线阶段完成的,用户在利用该系统800获取需要的神经网络模型时,可以通过迁移模块830直接获取已经预训练过的超网络模型,而无需在线执行预训练的操作。

示例性地,该预训练模块810可以位于云服务器上,也可以位于本地设备上。

预训练模块810基于源数据集对超网络模型进行预训练。

该源数据集可以是与目标神经网络模型所需要执行的任务相关的数据集。示例性地,当目标神经网络模型用于图像分类时,该源数据集可以包括源样本图像和源样本图像的分类标签。例如,该源数据集可以为公开数据集ImageNet。

输入模块820可以用于接收用户的输入数据。例如,输入模块820可以接收以下任意一项或多项:目标数据集、超参数、目标开销、目标精度、目标搜索时长或目标损失函数等。

该目标数据集用于微调(fine-tuning)预训练模块810输出的超网络模型。

需要说明的是,神经网络模型的超参数包括在神经网络模型训练过程中不变的参数。超参数不是通过神经网络模型的训练得到的,通常是在神经网络模型的训练之前确定的。

示例性地,神经网络模型的超参数包括:神经网络模型的学习率、神经网络模型的标签平滑(label smooth)系数或神经网络模型的丢弃(dropout)参数等。

该目标开销指的是输出模块860输出的目标神经网络模型在目标设备上的硬件开销。

该目标精度指的是输出模块860输出的目标神经网络模型的推理精度。

该目标搜索时长指的是在超网络模型中搜索子网络模型以得到目标神经网络模型的搜索时长。

该目标损失函数用于微调预训练模块810输出的超网络模型。

迁移模块830可以用于基于目标数据集对预训练的超网络模型进行迁移学习。或者可以理解为,将预训练模块810得到的超网络模型的权重迁移至目标数据集。

该迁移模块830可以位于云服务器上,也可以位于本地设备上。

示例性地,迁移模块830可以接收预训练模块810发送的预训练的超网络模型。例如,若迁移模块830和预训练模块810位于不同的设备,则迁移模块830和预训练模块810之间可以通过通信网络传输预训练的超网络模型。

具体地,迁移模块830可以基于目标数据集对预训练模块810得到的超网络模型的权重进行微调。例如,该目标数据集可以为输入模块820输入的数据集。

例如,迁移模块830可以加载预训练模块810输出的超网络模型的权重,并根据用户输入的目标数据集微调该超网络模型。

再如,迁移模块830可以加载预训练模块810输出的超网络模型的权重,并根据用户输入的目标损失函数微调该超网络模型。

搜索模块840可以用于在迁移模块830输出的超网络模型中搜索子网络模型,得到目标神经网络模型。

该搜索模块840可以位于云服务器上,也可以位于本地设备上。

示例性地,该目标神经网络模型的性能指标可以满足目标性能指标。也就是说,搜索模块840可以在该超网络模型中搜索性能指标满足目标性能指标的目标子网络模型,根据目标子网络模型确定目标神经网络模型。其中,子网络模型的性能指标可以包括子网络模型的推理精度、子网络模型的硬件开销或子网络模型的推理时长等。目标性能指标可以包括目标精度、目标开销或目标推理时长等。

该目标性能指标可以是默认的,也可以是通过输入模块820输入的。例如,用户可以通过输入模块820输入期望的目标性能指标。

例如,该目标子网络模型可以是推理精度达到目标精度的子网络模型。

再如,该目标子网络模型可以是硬件开销达到目标开销,且推理精度达到目标精度的子网络模型。其中,子网络模型的硬件开销的测试可以由测试模块850执行。该测试模块850位于目标设备上。也就是说,将子网络模型部署于目标设备上,由测试模块850测试其硬件开销大小。

示例性地,该搜索模块840的搜索时长可以满足目标搜索时长。

例如,搜索模块840可以在该超网络模型中搜索性能指标满足目标性能指标的目标子网络模型,且该搜索时长满足目标搜索时长,根据目标子网络模型确定目标神经网络模型。

测试模块850用于测试在目标设备上不同的子网络模型的硬件开销。应理解,测试模块850为可选模块。测试模块850位于目标设备上。

输出模块860用于输出搜索模块840得到的目标神经网络模型。

下面结合图9对本申请实施例的获取神经网络模型的方法900进行详细的介绍。图9所示的方法可以由获取神经网络模型的装置来执行,例如,由图2所示的训练设备120执行,或者,由图8所示的系统800执行。该获取神经网络模型的装置可以是云服务设备,也可以是移动终端,例如,电脑、服务器等运算能力足以用来执行方法900装置,也可以是云服务设备和移动终端构成的系统。方法900包括步骤S910至步骤S940。下面对步骤S910至步骤S940进行详细说明。

S910,预训练超网络模型。

在本申请实施例中,预训练超网络模型,也可以理解为预训练超网络模型的权重。

示例性地,步骤S910可以由图8中的预训练模块810或图2中的训练设备120执行。应理解,此处仅为示意,在本申请实施例中,步骤S910还可以由其他设备执行。也就是说步骤S930中获取的预训练的超网络模型可以是由其他设备训练的模型。

在本申请实施例中,超网络模型也可以称为超网络或超模型。

其中,超网络模型指的是可以涵盖搜索空间中所有的子网络模型的模型。超网络模型的权重即为所有子网络模型的权重。也就是说子网络模型的权重可以从超网络模型中获取。

神经网络模型是由多层算子堆叠而成,神经网络模型可以由多层算子堆叠而成的有向无环图来表示,在该有向无环图中,每一层即为一个节点,每个节点处的算子为单一算子。

超网络模型中的每一层包括多个算子,也就是说每个节点处有多个候选算子,层与层之间的算子以全连接的方式相连,全连接中的一条路径即为一个子网络模型。例如,在每一层中选择一个算子,由多层中被选择的算子组成的神经网络模型即为一个子网络模型。对该路径中的权重进行更新,即更新该子网络模型的权重,同时也是更新超网络模型的权重,即达到训练超网络模型的效果。例如,图10所示的超网络模型中,其中一层的候选算子包括算子411和算子412等候选算子,该层中的候选算子可以均为卷积,算子411和算子412的通道数可以不同。

算子指的是神经网络模型计算的基本单元,在本申请实施例中,算子也可以理解为神经网络模型的结构单元或神经网络模型中的“块(block)”。前述超网络模型与子网络模型之间的关系也可以理解为,超网络模型的每一层包含多个可供选择的块,在每一层中选择一个块,将被选择的块组合起来形成一个子网络模型。

示例性地,算子可以包括:激活算子、特征提取算子、归一化算子、防过拟合算子等。例如,激活算子可以包括:修正线性单元(rectified linear unit,ReLU)、sigmoid等。特征提取算子可以包括:卷积(convolution)、全连接(full connection)等。归一化算子可以包括:批标准化(batch normalization)等。防过拟合算子可以包括:池化(pooling)等。

超网络模型中的子网络模型的网络拓扑结构可以是相同的。具体来说,构成子网络模型的块之间的数据流的方向可以是相同的。超网络模型中的子网络模型的卷积核大小、层数或通道数可以不同。

该超网络模型可以为预先定义的。示例性地,可以根据目标神经网络模型所需要执行的任务预先定义搜索空间。该搜索空间可以作为步骤S940中的可搜索范围。或者可以理解为,超网络模型可以是根据目标神经网络模型所需要执行的任务定义的。具体地,可以根据目标神经网络所需要的执行的任务确定超网络模型中可供选择的算子的数量或种类等。示例性地,目标神经网络所需要的执行的任务可以包括图像分类、图像分割或目标检测等。示例性地,步骤S910可以在离线阶段完成。例如,用户在获取需要的神经网络模型时,可以直接获取已经预训练过的超网络模型,而无需在线执行预训练的操作。

示例性地,步骤S910为可选步骤。方法900可以从步骤S920开始执行。

示例性地,可以基于源数据集对超网络模型进行预训练。

其中,该源数据集可以采用大数据量的数据集,这样可以保证超网络模型训练充分,能够得到精确度更高的超网络模型。

需要说明的是,该源数据集可以是与目标神经网络模型所需要执行的任务相关的数据集。源数据集可以包括源样本数据和源样本数据对应的标签。

例如,当目标神经网络模型用于图像分类时,该源数据集可以包括源样本图像和源样本图像的分类标签。例如,该源数据集可以为公开数据集ImageNet。

再如,当目标神经网络模型用于图像分割时,该源数据集可以包括源样本图像和源样本图像中的像素的分类标签。

再如,当目标神经网络模型用于目标检测时,该源数据集可以包括源样本图像和源样本图像中的对象分类标签以及对象的边界框。

可选地,步骤S910包括:基于单路(single path)算法对超网络模型进行预训练。

具体地,在每次迭代训练中,只激活一个单路径的子网络模型,或者可以理解为从超网络模型中只选择一个子网络模型,更新该子网络模型的权重,继续迭代直至训练完成。

可选地,基于渐进收缩(progressive shrinking,PS)算法对超网络模型进行预训练。图11示出了一种渐进收缩算法的示意图。如图11所示,首先训练最大子网络模型,然后逐步训练卷积核可变的子网络模型、层数可变的子网络模型、通道数可变的子网络模型。

其中,最大子网络模型指的是超网络模型中卷积核(kernel)最大、层数(depth)最大且通道数(width)最大的一个子网络模型。

具体地,训练卷积核可变的子网络模型可以为从超网络模型中采样训练层数最大、通道数最大的多个子网络模型进行训练。也就是说,在该训练阶段,被训练的多个子网络模型的层数为D,道数为W,该多个子网络模型的卷积核大小可能不同。其中,D表示该超网络模型中的最大层数,W表示该超网络模型中的最大通道数。

示例性地,训练卷积核可变的子网络模型可以为采用随机单路算法采样层数最大、通道数最大、卷积核大小不同的多个子网络模型进行训练。

具体地,训练层数可变的子网络模型可以为从超网络模型中采样通道数最大的多个子网络模型进行训练。也就是说,在该训练阶段,被训练的多个子网络模型的道数为W,该多个子网络模型的卷积核大小可能不同,该多个子网络模型的层数可能不同。其中,W表示该超网络模型中的最大通道数。

示例性地,训练层数可变的子网络模型可以为采用随机单路法采样通道数最大、层数不同、卷积核不同的多个子网络模型进行训练。训练通道数可变的子网络模型可以为随机采样不同的子网络模型进行训练。

具体地,训练通道数可变的子网络模型可以为从超网络模型中采样多个子网络模型进行训练。也就是说,在该训练阶段,被训练的多个子网络模型的卷积核大小可能不同,该多个子网络模型的层数可能不同,该多个子网络模型的通道数可能不同。

示例性地,训练通道数可变的子网络模型可以为采用随机单路法采样不同的多个子网络模型进行训练。

具体地,可以通过知识蒸馏的方式训练卷积核可变的子网络模型、层数可变的子网络模型或通道数可变的子网络模型。

知识蒸馏指的是将一个神经网络模型的知识转移到另一个神经网络模型。神经网络模型的知识可以理解为输入到输出的映射关系。神经网络模型中输入到输出的映射关系是基于神经网络模型的参数确定的。也就是说知识蒸馏可以理解为将一个神经网络模型的参数转移到另一个神经网络模型。

具体地,知识蒸馏指的是利用训练好的老师(teacher)网络模型的输出以及训练样本的真实标签训练学生(student)网络模型。在本申请实施例中,老师网络模型指的是最大子网络模型,学生网络模型指的是卷积核可变的子网络模型、层数可变的子网络模型或通道数可变的子网络模型。

例如,通过知识蒸馏的方式训练卷积核可变的子网络模型,指的是,将源数据数据输入训练好的最大子网络模型,得到最大子网络模型的输出值,基于该输出值和源样本数据对应的标签训练卷积核可变的子网络模型。

由于子网络模型之间权值共享,在训练超网络模型时,不同的子网络模型之间可能出现干扰。通过渐进收缩算法训练减少了训练过程中不同大小的子网络模型相互影响,得到的超网络模型能够支持多种不同的架构设置。例如,多种不同的架构设置包括不同的层数、不同的通道数、不同的卷积核大小的子网络模型等。超网络模型训练完成后可以从该超网络模型中选择合适的子网络模型,而无需对搜索得到的子网络模型进行额外的训练,或者说子网络模型无需重训练,也可以保证子网络模型的精度满足预训练的要求。在超网络模型的训练过程中也无需独立训练每个子网络模型,该超网络模型中的子网络模型能够达到与独立训练的子网络模型相近的准确率。

S920,获取输入数据,该输入数据包括目标数据集。

可选地,输入数据还可以包括以下任意一项或多项:超参数、目标开销、目标精度、目标搜索时长或目标损失函数等。

示例性地,该步骤可以由图8中的输入模块820执行。

该目标数据集可以是根据目标神经网络模型需要执行的任务确定的。也就是说预训练的超网络模型中的子网络模型与目标神经网络模型执行的任务是一致的。或者,可以理解为源数据集对应的任务与所述目标数据集对应的任务相同。例如,二者均用于图像分类;或者,二者均用于图像分割;或者,二者均用于目标检测。

示例性地,当目标神经网络模型用于实现图像分类时,则该目标数据集可以包括目标样本图像和目标样本图像的分类标签。例如,目标神经网络模型用于实现车辆识别。则该目标数据集可以包括目标车辆图像和目标车辆图像的分类标签。

再如,当目标神经网络模型用于图像分割时,该目标数据集可以包括目标样本图像和目标样本图像中的像素的分类标签。再如,目标神经网络模型用于实现目标检测,则该目标数据集可以包括目标检测数据集。目标检测数据集中可以包括目标样本图像、目标样本图像中的对象分类标签以及对象的边界框。

示例性地,该目标数据集可以是用户输入的数据集,也可以是从其他设备获取的数据集。例如,步骤S920由云服务设备执行,则其他设备可以为目标设备。目标设备可以为目标神经网络模型所要部署的设备。

S930,基于目标数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型。

基于目标数据集对预训练的超网络模型进行迁移学习可以为基于目标数据集微调预训练的超网络模型。

微调指的是将预训练过的模型作用于目标数据集,并使该模型的参数适应目标数据集。

对预训练的超网络模型进行迁移学习具体指的是迁移预训练的超网络模型的权重。

通过迁移学习将在源数据集上学习到的知识迁移至目标数据集。也就是说将预训练的超网络模型的权重迁移至目标数据集。

示例性地,步骤S930可以由图8中的迁移模块830或图2中的训练设备120执行。应理解,此处仅为示意,在本申请实施例中,步骤S930还可以由其他设备执行。

具体地,获取预训练的超网络模型,或者,加载预训练的超网络模型的权重,基于目标数据集微调该超网络模型。需要说明的是,执行步骤S910的设备和执行步骤S930的设备可以相同,也可以不同。示例性地,当执行步骤S910的设备和执行步骤S930的设备为不同设备时,可以通过通信网络传输预训练的超网络模型。

可选地,步骤S930包括通过单路算法微调预训练的超网络模型。这样能够均匀采样子网络模型,并对其进行训练,提高训练效果。此外,能够减少内存空间,实现高效训练。

通过单路算法微调预训练的超网络模型,包括:

从预训练的超网络模型中选择一个子网络模型,基于目标数据集计算子网络模型的权重梯度,基于子网络模型的权重梯度更新子网络模型的权重,得到更新后的超网络模型;重复上述步骤,直至更新后的超网络模型满足终止条件,得到迁移学习后的超网络模型。

也就是说,在每次迭代训练中,只激活单路径的子网络模型,或者可以理解为从超网络模型中只选择一个子网络模型,更新该子网络模型的权重,继续迭代直至训练完成。在每次迭代训练时,只有被选择的子网络模型的权重被激活和更新。

其中,从超网络模型中选择一个子网络模型可以为从超网络模型中随机选择一个子网络模型。

下面以一次迭代训练过程为例,对当前被选择的子网络模型的权重的更新方法进行举例说明。

在一次迭代训练过程中,在每次前向传播时选择超网络模型中的一个子网络模型,也就是将目标样本数据输入该子网络模型中,通过损失函数计算该子网络模型的输出对应的损失值(loss),并根据该损失值反向传播计算当前子网络模型的权重梯度,根据该权重梯度调整该子网络模型的权重。

所述损失函数的函数值用于指示目标样本图像的分类标签与该子网络模型输出的预测标签之间的差值。根据两者之间的差异情况来更新子网络模型的权重,直到神经网络模型的预测标签和训练数据的标签非常接近。例如,损失函数的函数值越高表示差异越大,那么神经网络模型的训练就变成了尽可能缩小这个函数值的过程。在一些情况下,损失函数也可以是目标函数。

可选地,步骤S930包括:从预训练的超网络模型中选择Nb个模型,基于目标数据集计算Nb个子网络模型的权重梯度,基于Nb个子网络模型的权重梯度更新预训练的超网络模型的权重,得到更新后的超网络模型;重复上述步骤,直至更新后的超网络模型满足终止条件,得到迁移学习后的超网络模型。

在每次选择子网络模型时,只激活单路径的子网络模型,或者可以理解为每次从超网络模型选择子网络模型时,只选择一个子网络模型。

下面以一次迭代过程为例,对超网络模型的权重的更新方法进行说明。

每次前向传播时从超网络模型中选择一个子网络模型,也就是说将目标样本图像输入子网络模型,计算损失函数的函数值。根据该函数值反向传播计算当前子网络模型的权重梯度。执行Nb次该过程,也就是选择Nb次子网络模型,计算Nb次子网络模型的权重梯度,累计Nb次得到的权重梯度。然后根据该累计的权重梯度,更新一次超网络模型的权重,该过程可以视为一次迭代过程。继续迭代至满足终止条件,得到迁移学习后的超网络模型,即超网络模型迁移完成。其中,Nb为正整数。Nb可以是预先设定的,也可以是用户输入的。损失函数的函数值用于指示所述目标样本图像的分类标签与所述子网络模型输出的预测标签之间的差值

其中,Nb次累计的权重梯度可以满足:

其中,dW表示超网络模型的权重梯度,L表示一次迭代过程中第i次前向传播时的损失函数的函数值。

示例性地,更新一次超网络模型权重,可以包括:通过当前超网络模型的权重减去累计的权重梯度来更新超网络模型的权重。

可替换地,更新一次超网络模型权重,可以包括:通过当前超网络模型的权重减去累计的权重梯度与学习率的乘积来更新超网络模型的权重。例如,当前超网络模型的权重可以满足:

Wj=Wj-1-lr*dW

其中,Wj为第j次迭代后的超网络模型的权重,Wj-1为第j-1次迭代后的超网络模型的权重,lr表示学习率。

可选地,终止条件包括重复次数大于或等于第一迭代次数。在该情况下,迭代次数也可以理解为超网络模型的权重的更新次数。

可选地,终止条件包括更新后的超网络模型的推理精度大于或等于第一推理精度。例如,超网络模型的推理精度可以为超网络模型中至少一个子网络模型的推理精度。

在本申请实施例中,“推理”也可以称为“预测”。

可选地,终止条件可以包括:在预设时间间隔内,z个子网络模型的推理精度的变化值小于设定阈值。该z个子网络模型可以为预先指定的z个子网络模型。也就是说,可以预先指定z个子网络模型,在每次迭代时,均测试该z个子网络模型的精度,在一段时间内或者说在一定迭代次数内,该z个子网络模型的精度的变化不明显,则可以终止迁移,即超网络模型迁移完成。

由于子网络模型之间可能存在权重共享,若根据每次反向传播计算得到的权重梯度更新当前子网络模型的权重,会对其他共享权重的子网络模型产生干扰。在本申请实施例的方案中,每次迭代中执行多次前向传播和反向传播,在一次迭代中累计多个子网络模型的权重梯度,仅更新一次超网络模型的权重,能够减少不同子网络模型之间的相互干扰,提高超网络模型的精度以及提高超网络模型的训练速度。

步骤S930中的损失函数可以是预先设置的损失函数,也可以是用户输入的目标损失函数。

应理解,以上微调方式仅为示例,其他能够微调预训练的超网络模型的方式均适用于步骤S930,本申请实施例对微调超网络模型的方式不作限制。

S940,从迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

示例性地,该步骤可以由图8的搜索模块840或图2的训练设备120执行。

示例性地,该目标神经网络模型的性能指标可以满足目标性能指标。也就是说,可以在该迁移学习后的超网络模型中搜索得到目标子网络模型,根据目标子网络模型确定目标神经网络模型。该目标子网络模型可以是性能指标满足目标性能指标的子网络模型。其中,子网络模型的性能指标可以包括子网络模型的推理精度、子网络模型的硬件开销或子网络模型的推理时长等。目标性能指标可以包括目标精度、目标开销或目标推理时长等。

该目标开销指的是目标神经网络模型在目标设备上的硬件开销。

该目标精度指的是目标神经网络模型的推理精度。

该目标推理时长指的是目标神经网络模型的推理时长。

该目标性能指标可以是预先设置的目标性能指标,也可以是用户输入的目标性能指标。示例性地,步骤S920还包括获取目标开销、目标精度或目标推理时长等。

例如,目标性能指标为目标精度,则该目标子网络模型可以是推理精度达到目标精度的子网络模型。

再如,目标性能指标包括目标精度和目标开销,则该目标子网络模型可以是硬件开销达到目标开销,且推理精度达到目标精度的子网络模型。示例性地,子网络模型的硬件开销的测试可以由测试模块850执行。具体地,在测试子网络模型的硬件开销时,可以将子网络模型部署于目标设备上,测试其硬件开销。

示例性地,对目标子网络模型的搜索时长可以满足目标搜索时长。

该目标搜索时长指的是在超网络模型中搜索得到子网络模型的搜索时长。

例如,在该超网络模型中搜索性能指标满足目标性能指标的目标子网络模型,且该搜索时长满足目标搜索时长,根据目标子网络模型确定目标神经网络模型。

该目标搜索时长可以是预先设置的目标搜索时长,也可以是用户输入的目标搜索时长。

示例性地,通过强化学习算法在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

示例性地,通过进化算法在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

通过进化算法在迁移学习后的超网络模型中搜索子网络模型,可以包括:

步骤一:根据所述迁移学习后的超网络模型确定n个第一子网络模型。这n个第一子网络模型可以作为初始种群。

例如,从迁移学习后的超网络模型中抽取n个子网络模型,该n个子网络模型即为n个第一子网络模型。

步骤二:调整n个第一子网络模型的结构,得到n个第二子网络模型。

例如,调整n个第一子网络模型的结构可以为通过交叉变异等操作调整第一子网络模型的结构。

步骤三:从n个第一子网络模型和n个第二子网络模型中选择n个第三子网络模型,将n个第三子网络模型作为步骤二中的n个第一子网络模型。该n个第三子网络模型即为新的种群。

重复上述步骤二至步骤三,直至n个第三子网络模型满足搜索终止条件。

根据n个第三子网络模型确定目标神经网络模型。

其中,n为大于1的正整数。n可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取n的值。

该搜索终止条件可以是预先设置的,也可以是基于用户的输入数据确定的。

例如,该搜索终止条件可以为上述重复次数大于或等于第二迭代次数。该第二迭代次数可以是预先设定的,也可以是用户输入的。

再如,该搜索终止条件可以为n个第三子网络模型中的至少p个第三子网络模型的精度满足目标精度。其中,p为正整数,p≤n。p可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取p的值。

再如,该搜索终止条件可以为搜索时长达到目标搜索时长。

再如,该搜索终止条件可以为n个第三子网络模型中的至少q个第三子网络模型的硬件开销满足目标开销。其中,q为正整数,q≤n。q可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取q的值。

在本申请实施例中,“抽取”也可以理解为“采样”。

进一步地,在步骤一中,根据所述迁移学习后的超网络模型确定n个第一子网络模型,可以包括:

在迁移学习后的超网络模型中选择n个第四子网络模型;

获取该n个第四子网络模型在目标设备上的硬件开销;

基于硬件开销调整该n个第四子网络模型的结构,得到n个第一子网络模型。

下面举例说明在迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型的方法。

示例性地,从迁移学习后的超网络模型中抽取n个子网络模型,根据该n个子网络模型在目标设备上的硬件开销调整子网络模型结构,得到调整后的n个子网络模型。将调整后的n个子网络模型作为初始种群,采用交叉变异生成新的n个子网络模型,从该2n个子网络模型中选择n个子网络模型构成新的种群,继续迭代至满足搜索终止条件。最后得到的n个子网络模型即为搜索结果。

其中,n为大于1的正整数。n可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取n的值。

该搜索终止条件可以是预先设置的,也可以是基于用户的输入确定的。例如,该搜索终止条件可以为当前迭代次数达到第二迭代次数。该第二迭代次数可以是预先设定的,也可以是用户输入的。

再如,该搜索终止条件可以为当前迭代得到的n个子网络模型中的至少p个子网络模型的精度满足目标精度。其中,p为正整数,p≤n。p可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取p的值。

再如,该迭代终止条件可以为搜索时长达到目标搜索时长。

再如,该迭代终止条件可以为当前迭代得到的n个子网络模型中的至少q个子网络模型的硬件开销满足目标开销。其中,q为正整数,q≤n。q可以是预先设定的,也可以是用户输入的。例如,可以通过输入模块820获取q的值。

应理解,以上搜索终止条件仅为示例,可以根据需要设定搜索终止条件,例如,搜索终止条件可以包括上述两种条件。

示例性地,从超网络模型中抽取n个子网络模型可以包括:从超网络模型中随机抽取n个子网络模型。

示例性地,从2n个子网络模型中选择n个子网络模型构成新的种群可以包括多种方式。下面举例说明从2n个子网络模型中选择n个子网络模型的方式。

例如,从该2n个子网络模型中选择n个子网络模型构成新的种群可以包括:从该2n个子网络模型中随机选择n个子网络模型构成新的种群。

或者,从该2n个子网络模型中选择n个子网络模型构成新的种群可以包括:测试该2n个子网络模型的硬件开销,根据硬件开销的限制选择n个子网络模型构成新的种群。

或者,从该2n个子网络模型中选择n个子网络模型构成新的种群可以包括:测试该2n个子网络模型的推理精度,选择推理精度最高的n个子网络模型构成新的种群。

或者,从该2n个子网络模型中选择n个子网络模型构成新的种群可以包括:测试该2n个子网络模型的推理精度和硬件开销,在硬件开销的限制范围内选择推理精度最高的n个子网络模型构成新的种群。

示例性地,根据该n个子网络模型在目标设备上的硬件开销调整子网络模型结构,得到调整后的n个子网络模型,包括:可以根据子网络模型结构调整的概率调整子网络模型结构,调整后的子网络模型能够满足目标开销。其中,子网络模型结构调整的概率是根据子网络模型的硬件开销确定的。

例如,对于硬件开销大的子网络模型,将当前子网络模型调整为更小的子网络模型的概率大于将当前子网络模型调整为更大的子网络模型的概率。对于硬件开销小的子网络模型,将当前子网络模型调整为更大的子网络模型的概率大于将当前子网络模型调整为更小的子网络模型的概率。其中,硬件开销大小可以是相对于目标开销确定的。例如,大于目标开销的子网络模型可以视为硬件开销大的子网络模型,小于目标开销的子网络模型可以视为硬件开销小的子网络模型。可替换地,硬件开销的大小也可以是相对于其他基准确定的,本申请实施例对此不做限定。

例如,该目标设备可以包括GPU或NPU等。

这样采用启发式的搜索方式,可以感知子网络模型在目标设备上的硬件开销,基于硬件开销调整子网络模型的结构,使最终的子网络模型能够满足目标开销。

进一步地,将目标子网络模型反馈给用户。目标子网络模型可以是一个子网络模型,也可以是多个子网络模型。例如,目标子网络模型包括m个子网络模型。其中,m为正整数,m≤n。搜索结果中的n个子网络模型包括该m个子网络模型。m可以是预先设置的,也可以是用户输入的。

具体地,可以根据用户的需要将搜索结果反馈给用户。下面举例说明将搜索结果反馈给用户的具体形式。

示例性地,可以将m个子网络模型反馈至用户,由用户选择所需的子网络模型作为目标神经网络模型。例如,反馈至用户的m个子网络模型可以是从搜索结果中随机选择的m个子网络模型。再如,反馈至用户的m个子网络模型可以是搜索结果中精度最高的m个子网络模型,进一步地,可以将该m个子网络模型基于精度的排序反馈至用户。再如,反馈至用户的m个子网络模型可以是搜索结果中开销最小的m个子网络模型,进一步地,可以将m个子网络模型基于开销的排序反馈至用户。再如,反馈至用户的m个子网络模型可以是目标开销范围内精度最高的m个子网络模型。

进一步地,可以将m个子网络模型的精度反馈至用户,由用户选择所需的子网络模型作为目标神经网络模型。

进一步地,可以将m个子网络模型的开销反馈至用户,由用户选择所需的子网络模型作为目标神经网络模型。

根据本申请实施例的方案,通过将预训练的超网络模型迁移至目标数据集,即使在目标数据集较小的情况下,也能得到性能较好的超网络模型。赋能小数据场景的应用,极大地提高AutoML在小数据场景的精度。

同时,对于用户的不同需求,例如,用户的开销/精度需求,通过搜索超网络模型中的子网络模型能够得到满足用户需求的神经网络模型,适配目标数据集,以满足用户的需求,例如,满足用户的开销/精度需求。

同时,超网络模型的权重在不同数据集之间共享,源数据集和目标数据集均是与相同的任务相关的数据集,可以实现AutoML的高效迁移学习,迁移时仅对超网络模型的权重进行微调,无需调整超网络模型的结构,能够大大提高AutoML的迁移效率,使其训练所需时长降低至少一个数量级,甚至达到普通神经网络模型的训练时长。

此外,本申请实施例中提供的超网络模型的迁移时间与普通神经网络模型迁移的时间接近。也就是说,相较于通过普通神经网络模型的迁移学习得到目标神经网络模型的方法,在相同的训练时长下,本申请实施例中的获取神经网络模型的方法,更能满足用户精细化的开销/精度需求。在相同的开销的情况下,得到精度更高的目标神经网络模型。

此外,对于同样的任务,例如图像分类任务,在用户需要多个神经网络模型的情况下,无需针对每个部署方案或者说用户需求分别设计和训练神经网络模型,只需要训练一次超网络模型,超网络模型的权重在不同数据集之间共享或者说迁移至不同数据集,得到满足用户不同的开销/精度需求的神经网络模型,大大降低了训练成本。

此外,基于渐进收缩法训练得到的超网络模型能够支持多种不同的架构设置,超网络模型训练完成后可以从该超网络模型中选择合适的子网络模型,而无需额外的训练,例如,本申请实施例中,在从迁移学习后的超网络模型中搜索得到目标神经网络模型的过程中,无需重训练子网络模型。或者说子网络模型无需重训练,也可以保证子网络模型的精度满足预训练的要求。

下面通过图12举例说明通过本申请实施例的方法部署多个神经网络模型的流程。图12示出了本申请实施例的一种获取神经网络模型的方法的示意性流程图。图12的方法包括步骤S1110至步骤S1140。图12的方法可以视为图9中的方法900的一个实施例,具体实现方式可以参照前述方法900,为了避免不必要的重复,在介绍图12的方法时适当省略重复的描述。

下面将图12的方法分为离线阶段和在线阶段两个阶段进行说明。

离线阶段:

S1110,预训练超网络模型。

具体地,预定义搜索空间,也就是预定义超网络模型。基于源数据集预训练超网络模型。该源数据集可以是与目标神经网络模型所需要执行的任务相关的数据集。

例如,当目标神经网络模型用于图像分类时,该源数据集可以包括源样本图像和源样本图像的分类标签。如图12所示,该源数据集可以为公开数据集ImageNet。

在线阶段:

S1120,获取预训练的超网络模型。

例如,可以加载预训练的超网络模型。

S1130,获取目标数据集。

该目标数据集可以是根据目标神经网络模型需要执行的任务确定的。

示例性地,当目标神经网络模型用于图像分类时,该目标数据集可以包括目标样本图像和目标样本图像的分类标签。

示例性地,该目标数据集可以是用户输入的目标数据集。

S1140,基于目标数据集对预训练的超网络模型进行迁移学习。

需要说明的是,图12中仅示出了一个目标数据集,本申请实施例对目标数据集的数量不做限定。若用户输入多个目标数据集,则可以将预训练的超网络模型迁移至不同的目标数据集。

例如,多个目标数据集包括鸟类数据集或车辆数据集等。步骤S1140包括,基于鸟类数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型1,以及基于车辆数据集对预训练的超网络模型进行迁移学习,得到迁移学习后的超网络模型2。

S1150,在迁移学习后的超网络模型中进行搜索,得到目标神经网络模型。

具体地,可以根据不同的用户需求在迁移学习后的超网络模型中进行搜索,得到满足不同的用户需求的目标神经网络模型。

例如,如图12所示,不同的用户需求可以包括目标神经网络1的推理精度达到目标精度1,以及目标神经网络2的推理精度达到目标精度2。

需要说明的是,图12中仅以两种目标精度作为两个用户需求的例子,本申请实施例对用户的需求的数量以及用户的需求的具体内容不做限定。

这样,对于同样的任务,例如图像分类任务,在用户需要多个神经网络模型的情况下,无需针对每个部署方案或者说用户需求分别设计和训练神经网络模型,只需要训练一次超网络模型。将预训练的超网络模型迁移至目标数据集,根据不同的用户需求进行搜索,得到满足用户不同的开销/精度需求的神经网络模型,大大降低了训练成本。

应理解,以上仅以目标神经网络模型应用于图像分类为例进行说明。本申请实施例提供的获取神经网络模型的方法能够应用于其他需要计算机视觉任务。例如,目标检测、图像分割等场景。

示例性地,目标神经网络模型还可以应用于非视觉任务。例如,自然语言处理或语音识别等场景。

在不同的应用场景下,源数据集以及目标数据集可以根据应用场景确定。

例如,当目标神经网络模型应用于语音识别时,源数据集可以包括源样本音频信号和源样本音频信号对应的分类标签,目标数据集可以包括:目标样本音频信号和目标样本音频信号对应的分类标签。

图13示出了本申请实施例提供的图像处理方法1200的示意性流程图,该方法可以由能够进行图像处理的装置或设备执行,例如,该方法可以由终端设备、电脑、服务器等执行。

图13中的图像处理方法1200中使用的目标神经网络模型可以是通过上述图9中的方法或图12中的方法构建的。方法1200包括步骤S1210至步骤S1220。方法1200中的具体实现方式可以参照前述方法900,为了避免不必要的重复,下面在介绍方法1200时适当省略重复的描述。

S1210,获取待处理图像。

其中,所述待处理图像可以是终端设备(或者电脑、服务器等其他装置或设备)通过摄像头拍摄到的图像,或者,该待处理图像还可以是从终端设备(或者电脑、服务器等其他装置或设备)内部获得的图像(例如,终端设备的相册中存储的图像,或者终端设备从云端获取的图像),本申请实施例对此并不限定。

S1220,采用目标神经网络模型对待处理图像进行处理,得到待处理图像的处理结果。

其中,目标神经网络模型是是通过在超网络模型中搜索子网络模型得到的。超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的。预训练的超网络模型是基于源数据集训练得到的。源数据集和目标数据集均是与图像处理的任务相关的数据集。

可选地,采用目标神经网络模型对待处理图像进行图像分类,输出分类结果。

其中,目标神经网络模型是通过在超网络模型中搜索子网络模型得到的,超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的。预训练的超网络模型是基于源数据集训练得到的。目标数据集包括目标样本图像和所述目标样本图像的分类标签,源数据集包括源样本图像和所述源样本图像的分类标签。

获取神经网络模型的详细步骤可以参见前述方法900,此处不再赘述。

应理解,以上仅以目标神经网络模型应用于图像分类为例进行说明。本申请实施例提供的获取神经网络模型的方法能够应用于其他需要计算机视觉任务。例如,目标检测、图像分割等场景。

示例性地,目标神经网络模型还可以应用于非视觉任务。例如,自然语言处理或语音识别等场景。

在不同的应用场景下,源数据集以及目标数据集可以根据应用场景确定。

例如,当目标神经网络模型应用于语音识别时,源数据集可以包括源样本音频信号和源样本音频信号对应的分类标签,目标数据集可以包括:目标样本音频信号和目标样本音频信号对应的分类标签。

下面将结合图14至图17,详细描述本申请的装置实施例。应理解,本申请实施例中的装置可以执行前述本申请实施例的方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。

图14是本申请实施例提供的获取神经网络模型的装置1300的示意性框图。应理解,装置1300可以执行图9或图12的获取神经网络模型的方法。例如,装置1300可以为图1中的训练设备120,或者图6中的执行设备310,或者图8中的系统800。该装置1300包括:获取单元1310和处理单元1320。

其中,获取单元1310用获取预训练的超网络模型,所述预训练的超网络模型是基于源数据集训练得到的;获取目标数据集,所述目标数据集对应的任务与所述源数据集对应的任务相同;处理单元1320用于基于所述目标数据集迁移所述预训练的超网络模型,得到迁移学习后的超网络模型;在所述迁移学习后的超网络模型中搜索子网络模型,得到目标神经网络模型。

可选地,作为一个实施例,所述预训练的超网络模型是通过渐进收缩法训练得到的。

可选地,作为一个实施例,所述处理单元1320具体用于:从所述预训练的超网络模型中选择一个子网络模型,基于所述目标数据集计算所述子网络模型的权重梯度,基于所述子网络模型的权重梯度更新所述子网络模型的权重,得到更新后的子网络模型,基于所述更新后的子网络模型得到更新后的超网络模型;重复上述步骤,直至所述更新后的超网络模型满足终止条件,得到所述迁移学习后的超网络模型;其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

可选地,作为一个实施例,所述处理单元1320具体用于:从所述预训练的超网络模型中选择Nb个模型,基于所述目标数据集计算所述Nb个子网络模型的权重梯度,基于所述Nb个子网络模型的权重梯度更新所述Nb个子网络模型的权重,得到更新后的Nb个子网络模型,基于所述更新后的Nb个子网络模型得到更新后的超网络模型,Nb为正整数;重复上述步骤,直至所述更新后的超网络模型满足终止条件,得到所述迁移学习后的超网络模型,其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

可选地,作为一个实施例,所述处理单元1320具体用于:步骤一:根据所述迁移学习后的超网络模型确定n个第一子网络模型,n为大于1的整数;步骤二:调整所述n个第一子网络模型的结构,得到n个第二子网络模型;步骤三:从所述n个第一子网络模型和所述n个第二子网络模型中选择n个第三子网络模型,将所述n个第三子网络模型作为步骤二中的所述n个第一子网络模型;重复上述步骤二至步骤三,直至所述n个第三子网络模型满足搜索终止条件,所述搜索终止条件包括以下至少一种:重复次数大于或等于第二迭代次数,或者,所述n个第三子网络模型中的至少p个第三子网络模型的推理精度大于或等于目标精度;根据所述n个第三子网络模型确定目标神经网络模型。

可选地,作为一个实施例,所述处理单元1320具体用于:在所述迁移学习后的超网络模型中选择n个第四子网络模型;获取所述n个第四子网络模型在目标设备上的硬件开销;基于所述硬件开销调整所述n个第四子网络模型的结构,得到所述n个第一子网络模型。

图15是本申请实施例提供的图像处理装置1400的示意性框图。应理解,装置1300可以执行图13的图像处理方法。例如,装置1400可以为图1中的执行设备110,或者图6中的本地设备301或执行设备310。该装置1400包括:获取单元1410和处理单元1420。

其中,获取单元1410用于获取待处理图像;处理单元1420用于采用目标神经网络模型对所述待处理图像进行图像处理,输出处理结果;其中,所述目标神经网络模型是通过在超网络模型中搜索子网络模型得到的,所述超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,所述预训练的超网络模型是基于源数据集训练得到的,所述目标数据集对应的任务与所述源数据集对应的任务相同。

可选地,作为一个实施例,所述预训练的超网络模型是通过渐进收缩法训练得到的。

可选地,作为一个实施例,所述超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,包括:所述超网络模型是通过从所述预训练的超网络模型中选择一个子网络模型,基于所述目标数据集计算所述子网络模型的权重梯度,基于所述子网络模型的权重梯度更新所述子网络模型的权重,得到更新后的子网络模型,基于所述更新后的子网络模型得到更新后的超网络模型;重复上述步骤,直至所述更新后的超网络模型满足终止条件得到的;其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

可选地,作为一个实施例,所述超网络模型是基于目标数据集对预训练的超网络模型进行迁移学习得到的,包括:所述超网络模型是通过从所述预训练的超网络模型中选择Nb个模型,基于所述目标数据集计算所述Nb个子网络模型的权重梯度,基于所述Nb个子网络模型的权重梯度更新所述Nb个子网络模型的权重,得到更新后的Nb个子网络模型,基于所述更新后的Nb个子网络模型得到更新后的超网络模型,Nb为正整数;重复上述步骤,直至所述更新后的超网络模型满足终止条件得到的,其中,所述终止条件包括以下至少一种:重复次数大于或等于第一迭代次数;所述更新后的超网络模型的推理精度大于或等于第一推理精度。

可选地,作为一个实施例,所述目标神经网络模型是通过在超网络模型中搜索子网络模型得到的,包括:所述目标神经网络模型是通过根据所述超网络模型确定n个第一子网络模型,n为大于1的整数;调整所述n个第一子网络模型的结构,得到n个第二子网络模型;从所述n个第一子网络模型和所述n个第二子网络模型中选择n个第三子网络模型,将所述n个第三子网络模型更新为所述n个第一子网络模型;重复上述步骤,直至所述n个第三子网络模型满足搜索终止条件;根据所述n个第三子网络模型确定的;其中,所述搜索终止条件包括以下至少一种:重复次数大于或等于第二迭代次数,或者,所述n个第三子网络模型中的至少p个第三子网络模型的推理精度大于或等于目标精度。

可选地,作为一个实施例,所述根据所述超网络模型确定n个第一子网络模型,包括:在所述超网络模型中选择n个第四子网络模型;获取所述n个第四子网络模型在目标设备上的硬件开销;基于所述硬件开销调整所述n个第四子网络模型的结构,得到所述n个第一子网络模型。

需要说明的是,上述装置1300和装置1400以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。

例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

图16是本申请实施例提供的获取神经网络模型的装置的硬件结构示意图。图16所示的获取神经网络模型的装置3000(该装置3000具体可以是一种计算机设备)包括存储器3001、处理器3002、通信接口3003以及总线3004。其中,存储器3001、处理器3002、通信接口3003通过总线3004实现彼此之间的通信连接。例如,装置3000可以为图1中的训练设备120,或者图6中的执行设备310,或者图8中的系统800。

存储器3001可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器3001可以存储程序,当存储器3001中存储的程序被处理器3002执行时,处理器3002用于执行本申请实施例的获取神经网络模型的方法的各个步骤。示例性地地,处理器3002可以执行上文中图9所示的方法中的步骤S920至步骤S940或图12中所示的方法中的步骤S1120至步骤S1150。

处理器3002可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的获取神经网络模型的方法。

处理器3002还可以是一种集成电路芯片,具有信号的处理能力,例如,可以是图5所示的芯片。在实现过程中,本申请的获取神经网络模型的方法的各个步骤可以通过处理器3002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器3002还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器3001,处理器3002读取存储器3001中的信息,结合其硬件完成本申请实施例的获取神经网络模型的装置中包括的单元所需执行的功能,或者执行本申请实施例的获取神经网络模型的方法。

通信接口3003使用例如但不限于收发器一类的收发装置,来实现装置3000与其他设备或通信网络之间的通信。例如,可以通过通信接口3003获取预训练的超网络模型或者目标数据集等。

总线3004可包括在装置3000各个部件(例如,存储器3001、处理器3002、通信接口3003)之间传送信息的通路。

图17是本申请实施例的图像处理装置的硬件结构示意图。图17所示的图像处理装置4000包括存储器4001、处理器4002、通信接口4003以及总线4004。其中,存储器4001、处理器4002、通信接口4003通过总线4004实现彼此之间的通信连接。例如,装置4000可以为图1中的执行设备110,或者图6中的本地设备301或执行设备310。

存储器4001可以是ROM,静态存储设备和RAM。存储器4001可以存储程序,当存储器4001中存储的程序被处理器4002执行时,处理器4002和通信接口4003用于执行本申请实施例的图像处理方法的各个步骤。具体地,处理器4002可以执行上文中图13所示的方法中的步骤S1210至步骤S1220。

处理器4002可以采用通用的CPU、微处理器、ASIC,GPU或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的图像处理装置中的单元所需执行的功能,或者执行本申请方法实施例的图像处理方法。

处理器4002还可以是一种集成电路芯片,具有信号的处理能力,例如,可以是图5所示的芯片。在实现过程中,本申请实施例的图像处理方法的各个步骤可以通过处理器4002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器4002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器4001,处理器4002读取存储器4001中的信息,结合其硬件完成本申请实施例的图像处理装置中包括的单元所需执行的功能,或者执行本申请方法实施例的图像处理方法。

通信接口4003使用例如但不限于收发器一类的收发装置,来实现装置4000与其他设备或通信网络之间的通信。例如,可以通过通信接口4003获取待处理图像。

总线4004可包括在装置4000各个部件(例如,存储器4001、处理器4002、通信接口4003)之间传送信息的通路。

应注意,尽管上述装置3000和装置4000仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置3000、装置4000还可以包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置3000、装置4000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置3000、装置4000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图16和图17中所示的全部器件。

应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。

上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。

本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。

应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

52页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法、装置、设备以及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!