一种基于深度学习的单视图三维重建方法

文档序号：1906252 发布日期：2021-11-30 浏览：23次 >En<

阅读说明：本技术 一种基于深度学习的单视图三维重建方法 (Single-view three-dimensional reconstruction method based on deep learning ) 是由喻钧刘亚彬胡志毅尹文彬刘昊阳于 2021-08-23 设计创作，主要内容包括：本发明公开了一种基于深度学习的单视图三维重建方法,首先对二维图像进行特征提取,并深度估计得到一个新的二维特征,把提取的二维特征与估计出的二维特征进行融合生成2×2×2尺寸的三维特征。其次,使用三线性空间上采样和三维反卷积网络分别从粗粒度和细粒度两个方面融合生成三维特征,可以较好的实现目标的三维特征重建,并且可以加快深度学习模型的收敛速度。实验结果表明,本发明模型的平均准确率比3D-R2N2高10.7％,比Pix2Vox高0.6％,并具有较好的泛化能力。此外,在向后推理时间方面,本发明模型的重建速度比3D-R2N2快20倍。(The invention discloses a single-view three-dimensional reconstruction method based on deep learning, which comprises the steps of firstly extracting features of a two-dimensional image, carrying out deep estimation to obtain a new two-dimensional feature, and fusing the extracted two-dimensional feature and the estimated two-dimensional feature to generate a three-dimensional feature with the size of 2 multiplied by 2. Secondly, three-dimensional features are generated by fusing coarse granularity and fine granularity by using a trilinear spatial upsampling and three-dimensional deconvolution network, so that the reconstruction of the three-dimensional features of the target can be better realized, and the convergence rate of a deep learning model can be accelerated. The experimental result shows that the average accuracy of the model is 10.7% higher than that of 3D-R2N2 and 0.6% higher than that of Pix2Vox, and the model has better generalization capability. In addition, the reconstruction speed of the model of the invention is 20 times faster than that of 3D-R2N2 in terms of backward inference time.)

一种基于深度学习的单视图三维重建方法

技术领域

本发明涉及三维重建技术和深度学习技术领域，具体涉及一种基于深度学习的单视图三维重建方法。

背景技术

三维重建是计算机视觉与图形学的重要研究方向，主要是通过目标的二维图像精确地推断出它的3D特征，这对于机器人技术、3D建模和动画、自动驾驶、VR/AR、工业制造以及医学诊断等方面都具有广泛的应用价值。利用传统的SFM方法(Structure From Motion)进行三维重建需要目标的多张二维图像，在重建过程中存在过度依赖于跨视图特征的假设匹配，当输入的多张图片之间的视点差距过大或者物体局部被遮挡时，对这些二维图像建立特征匹配较为困难。此外，由于传统的SFM算法要通过捆绑调整进行整体优化，导致整个算法的运算速度较慢，而且随着输入图像数量的增加，进行三维重建花费的时间也会大幅增加。

随着神经网络的不断发展，越来越多的研究人员使用深度学习直接进行三维重建，这样可以跳过特征抽取、特征匹配、相机参数求解等传统环节，且无需复杂的相机校准，直接由多张甚至是单张图像重建出目标物体的三维特征。 (1)Choy等人在2016年提出3D-R2N2深度学习模型，该模型使用CNN网络通过单张或多张RGB图像对目标进行三维重建，使用LSTM来实现从二维特征到三维特征的重建，由于LSTM网络的训练参数较大，重建准确率也不太理想。 (2)Xie等人在2019年提出Pix2Vox网络，实现把多个粗略的3D特征通过多尺度上下文感知融合网络进行融合，但在对单张图像生成三维特征时，通过 reshape操作直接把大尺寸二维特征变换成小尺寸三维特征，导致单张图像重建的特征精度较低。

发明内容

本发明提供了一种基于深度学习的单视图三维重建方法，解决现有技术中的问题。

为了达到上述目的，本发明的技术方案如下：

一种基于深度学习的单视图三维重建方法，包括以下步骤：

Step1：原始数据集的构建：采集多个目标的二维图像数据，对于同一目标，使用CAD软件计算出该目标的三维体素特征，把所有的二维图像和相应的三维体素特征按照3:1的比例划分为训练集、测试集，并转化为深度模型需要的 tensor数据；

Step2：编码模块对上述训练集和测试集中的二维图像进行特征提取：二维特征提取网络层基于ResNet50，并在ResNet50后加入新的特征提取层M；首先，使用ResNet50把大小为128×128的二维特征依次提取为64×64、32×32、16 ×16、8×8、4×4的二维特征；接着，进一步使用特征提取层M进行特征提取，生成1024×2×2的二维特征F；然后通过sigmoid对所有的特征进行二分类，得到它们在二维空间上的概率P；

Step3：多个二维特征融合生成三维特征：对上述Step2步骤所生成的二维特征F，使用深度估计模块得到一个新的二维特征F’，将F’与F进行融合，升维成F对应的1024×2×2×2的三维特征S；

Step4：解码模块将深度估计模块生成的三维特征S通过3D解码网络生成粗糙的三维体素：该模块有4个上采样操作，每个上采样操作均使用三线性空间上采样和三维反卷积网络组合模块；

Step5：校验模块采用U-net思想，使用具有3D解码器/解码器的残差网络来对Step4生成的粗糙三维体素进行错误校正，进而生成精确的3D体素特征；

Step6：对训练集重复执行步骤Step2～Step5的训练，直至整个模型收敛；

Step7：利用步骤Step6训练后所获得的单视图三维重建模型参数权重，对测试集中的二维图像进行三维重建测试，生成相应的三维体素模型和准确率，以及平均准确率。

将上述步骤中Step2～Step6再进一步细化，描述如下：

进一步的，步骤Step3中的深度估计模块再划分包括以下步骤：

Step301：预测新的深度二维特征：

把Step2提取的二维特征分别通过二个感知层网络分别生成特征大小为 1024×2×2的F₁、F₂，然后把F₁、F₂和Step2中的F一同融合生成大小为 3072×2×2特征F₃，再对F₃使用一个特征提取层生成大小为1024×2×2融合特征f，最后把f与Step2中的P相乘生成新的深度二维特征F’，计算过程如公式(1)所示：

F'_i＝f_i×P_i(i＝1,2,...1024) (1)

其中F'_i表示第i个深度估计的二维特征，f_i表示第i个融合二维特征，P_i表示第i个特征的二维空间概率；

Step302：深度特征与编码模块提取的二维特征：

首先对Step3-1中的F’与Step2中的F进行维度扩增，其次，F’和F在扩增的维度上进行融合，生成1024×2×2×2的三维基本单元S。

进一步的，步骤Step4中解码模块具体如下：

解码模块将Step3生成的三维基本单元组通过3D解码网络生成粗糙的三维体素；该模块有4个上采样操作，每个上采样操作均使用三线性空间上采样和三维反卷积组合模块；即：首先得到的三维特征C分别进行3维反卷积和三线性空间上采样得到C₁和C₂，实现把三维特征扩增两倍，其次把C₁和C₂进行相加生成上采样模块融合特征C’；其中三线性空间上采样是从粗粒度的对三维特征进行重建，还可以对每次的特征升维有一定初始化的作用；三维反卷积操作对对象进行细粒度的三维特征重建；把三线性空间插值和三维反卷积进行融合，可以加快整个三维重建网络的收敛速度；

通过4个上采样模块把2×2×2三维基本单元组依次变换为4×4×4、8×8 ×8、16×16×16、32×32×32三维特征组，生成一个32×32×32的三维粗糙特征，最后对三维粗糙特征使用sigmoid函数，生成该粗糙三维特征对应的三维空间的概率；

三线性空间上采样是在三维离散采样数据的张量积网格上进行线性插值的方法；该方法通过网格上数据点在局部的矩形棱柱上线性地近似计算点(x,y,z) 的值；具体计算方法如下：

首先在空间中通过C₀₀₀、C₁₀₀、C₀₁₀、C₁₁₀、C₀₀₁、C₁₀₁、C₀₁₁、C₁₁₁对C进行插值，计算x_d、y_d、z_d计算公式如(2)～(4)所示。

x_d＝(x-x₀)/(x₁-x₀) (2)

y_d＝(y-y₀)/(y₁-y₀) (3)

z_d＝(z-z₀)/(z₁-z₀) (4)

然后现在x轴方向插值，计算公式如下，其中V[x0,y0,z0]表示该函数在 (x0,y0,z0)上的值，计算过程如公式(5)-(8)所示。

C₀₀＝V[x₀,y₀,z₀](1-x_d)+V[x₁,y₀,z₀]x_d (5)

C₀₁＝V[x₀,y₀,z₁](1-x_d)+V[x₁,y₀,z₁]x_d (6)

C₁₀＝V[x₀,y₁,z₀](1-x_d)+V[x₁,y₁,z₀]x_d (7)

C₁₁＝V[x₀,y₁,z₁](1-x_d)+V[x₁,y₁,z₁]x_d (8)

然后再沿着y轴插值，计算公式如(9)、(10)所示：

c₀＝c₀₀(1-y_d)+c₁₀y_d (9)

c₁＝c₀₁(1-y_d)+c₁₁y_d (10)

最后再沿着z轴插值，计算公式如(11)所示：

c₀＝c₀(1-z_d)+c₁z_d (11)

最终得到了一个点的值；其中三线性插值的结果与沿三个轴的插值的顺序无关，都会生成相同的结果；根据以上推导公式我们可以得到一个计算插入点C 的完整的公式，如公式(12)所示：

c＝V[x₀,y₀,z₀](1-x_d)(1-y_d)(1-z_d)+V[x₁,y₀,z₀]x_d(1-y_d)(1-z_d)+

V[x₀,y₀,z₁](1-x_d)(1-y_d)z_d+V[x₁,y₀,z₁]x_d(1-y_d)z_d+

V[x₀,y₁,z₀](1-x_d)y_d(1-z_d)+V[x₁,y₁,z₀]x_dy_d(1-z_d)

V[x₀,y₁,z₁](1-x_d)y_dz_d+V[x₁,y₁,z₁]x_dy_dz_d (12)

进一步的，步骤Step5中校验模块具体为：

校验模块使用U-net思想的3D解码器/解码器构成残差网络，实现对Step4 生成的粗糙3D特征进一步纠正与恢复；其中编码器中有五个三维卷积层，其输出通道分别为8、16、32、64和128；在解码器中，有五个三维反卷积层，内核大小为43，填充为2，跨度为1；五个层的输出通道分别为64、32、16、8和1；即：首先把Step4生成的粗糙3D特征进行3D编码操作，进行三次MaxPool3d 操作分别生成E₁、E₂、E₃、然后把E3通过reshape变成8192线性节点，再使用 Linear把8192个线性节点变成2048生成E₄。3D编码操作首先把E₄通过Linear 还原为8192个线性节点，并使用reshape把线性节点变成128×4×4×4的三维特征D₄，然后把E₄+D₄进行三维反卷积操作生成E₃；同理依次把E₃+D₃、E₂+D₂、 E₁+D₁进行三维反卷积操作，最终得到校正后的3D精确体素。

进一步的，步骤Step6中模型的训练与测试为：

利用训练集数据对单视图目标的三维重建模型进行训练；模型训练时使用的优化算法是Adam；对Adam优化器的参数进行如下设置：初始学习率a＝0.001，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999；数据批处理大小(batch_size)为20，迭代次数为180个周期为一个(epoch)；在训练过程中保存平均准确率较高的模型权重；

训练完毕后，将训练好的模型参数进行保存，当使用测试集进行三维重建时，直接使用已训练的模型生成三维体素，得到每类模型的平均准确率和整个测试集的平均准确率；

在训练时使用的损失函数是二元交叉熵损失函数，表达式如公式(13)所示：

其中N表示总的体素单元格数；p_i表示样本i被预测为正样本概率，y_i表示样本i的标签，正样本为1，负样本为0；t值越小，则预测越接近于真实数据；

结果的评价标准使用联合交集(IoU)作为预测重建结果与真实结果的相似性度量；将阈值设置为0.35，具体计算如(14)公式所示；

其中和P_(i,j,k)分别代表(i，j，k)的预测占用率和真实性占用率；I(·) 是指标函数，t表示体素化阈值；IoU值越大则表示重建的质量越高。

与现有技术相比，本发明的有益效果如下：

1.从二维生成三维特征的过程，使用较少的参数估计出更为丰富的小尺寸三维特征。

为了更好地通过单张图像估计出目标的三维特征，使用深度估计模块对提取的二维特征F进行深度估计，生成一个与F具有强相关的深度特征F’，并将 F与F’扩展的维度、融合，来生成F对应的三维特征S。相比于3D-R2N2通过 LSTM把二维特征生成三维特征，参数量更少；比Pix2Vox直接从大尺寸二维的特征reshape成三维特征，本发明提取了更深的二维特征，并且可以通过深度估计模块生成更为丰富的三维特征。

2.重建出更为精确的三维特征，训练的网络收敛速度更快。

为了从小尺寸三维特征生成更为精确的大尺寸三维特征，本发明使用三线性空间插值和三维反卷积同时对三维特征进行上采样，并把结果进行融合，通过4次上采样操作，把2×2×2的特征生成为32×32×32的三维特征。这里的三线性空间插值是从粗粒度对三维特征的进行重建，三维反卷积操作是从细粒度进行三维特征重建，把两种操作进行融合，可以生成更为丰富的三维特征，在训练网络时有更好的初始化结果，且收敛速度更快。

3.重建的平均准确率更高，泛化能力较好。

本发明中的模型在ShapeNet数据集上做基准测试,得到附图中的重建结果。实验结果表明，本发明中的模型算法的平均准确率比3D-R2N2高1.7％，比 Pix2Vox高0.6％，并具有较好的泛化能力。此外，在向后推理时间方面，本发明模型的重建速度比3D-R2N2快20倍。

附图说明

图1为本发明提供的模型整体结构图；

图2为本发明提供的模型网络结构图；

图3为本发明提供的模型loss曲线图；

图4为本发明提供的模型IoU曲线图；

图5为本发明实施例部分模型的重建结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合实施例对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于深度学习的单视图三维重建方法，包括4个模块，分别是编码模块、深度估计模块、解码模块和校验模块。具体的网络结构如图2所示，包括以下步骤：

步骤1、首先根据设置的batch_size向网络中输入一组RGB图像，通过对图像做预处理操作，并根据预设参数把二维RGB图像读取为模型需要的tensor。

步骤2、把步骤1中的tensor进行特征提取，把3×128×128的二维特征经过6个特征提取层，生成尺寸为1024×2×2的二维特征F，并对二维特征F 使用sigmoid函数生成二维空间概率P。

步骤3、首先把步骤2提取的二维特征F分别通过两个感知层网络分别生成两个感知特征F₁、F₂，然后把F₁、F₂和步骤2中的F融合成F₃，其次对F₃进行特征提取，生成融合特征f，再把f与Step2中的P相乘生成新的深度二维特征F’。最后对F’与步骤2中的F进行维度扩增，并把F’和F在扩增的维度上进行融合，生成1024×2×2×2的三维基本单元S。

步骤4、将步骤3生成的三维基本单元S通过4个由三线性空间上采与三维反卷积操作融合的上采样模块，实现把1024×2×2×2的三维特征生成8×32 ×32×32的三维融合特征，并对三维融合特征进行提取生成1×32×32×32的三维特征，并对该三维特征使用sigmoid函数，生成粗糙的3D体素特征。

步骤5、把步骤4生成的粗糙的3D体素特征使用残差网络进行错误校正。生成校正后的3D精确体素。

下面结合一个具体实施例对本发明进行详细说明：

实施例：

步骤1、通过向网络中输入一张二维RGB图像，首先对图像做预处理操作，把图像像素变化为128×128。并通过预设参数把RGB图像读取为3×128×128 大小的tensor。

步骤2、把步骤1的tensor进行特征提取，共有6个特征提取层，每个特征提取层通过maxpool把特征变小一半，经过6层特征提取层，步骤1输入的 tensor的尺寸会从3×128×128依次变化为64×64×64、256×32×32、512× 16×16、1024×8×8、1024×4×4、1024×2×2，最终生成1024×2×2的二维特征F，并对F使用sigmoid函数生成二维空间概率P。

步骤3、首先把步骤2提取的二维特征F分别通过两个感知层网络分别生成特征大小为1024×2×2的F₁、F₂，然后把F₁、F₂和步骤2中的F一同融合生成大小为3072×2×2特征F₃，其次对F₃进行特征提取，生成大小为1024×2×2 融合特征f，再把f与Step2中的P相乘生成新的深度二维特征F’，F’计算过程如公式(15)所示。最后对F’与步骤2中的F进行维度扩增，并把F’和F在扩增的维度上进行融合，生成1024×2×2×2的三维基本单元S。

F'_i＝f_i×P_i(i＝1,2,...1024) (15)

其中F'_i表示第i个深度估计的二维特征，f_i表示第i个融合二维特征，P_i表示第i个特征的二维空间概率。

步骤4、首先把步骤3中三维特征S通过上采样模块把特征扩增两倍，具体来说，对三维特征S分别进行3维反卷积和三线性空间上采样操作生成S₁₁和S₁₂，实现把三维特征扩增两倍，并把S₁₁和S₁₂进行融合生成特征S’₁。同理，通过其余3个上采样模块，把S’₁生成S’₂，S’₂生成S’₃，S’₃生成S’₄。再对S’₄进行提取生成大小为1×32×32×32的三维特征S₅，并对S₅使用sigmoid函数，生成粗糙的3D体素特征Q。

步骤5、把步骤4中粗糙的3D体素特征Q使用残差网络中进行错误校正，残差网络包括3D编码器和3D解码器。首先把步骤4中的Q使用3D编码器进行三次MaxPool3d操作，分别生成E₁、E₂、E₃，然后把E₃通过reshape变成8192 线性节点，再使用Linear把8192个线性节点变成2048，并生成线性特征E₄。3D编码操作是首先把E₄通过Linear还原为8192个线性节点，并使用reshape 把线性节点变成128×4×4×4的三维特征D₄，然后把E₄+D₄进行三维反卷积操作生成E₃。同理，依次把E₃+D₃、E₂+D₂、E₁+D₁进行三维反卷积操作，最终得到校正后的3D精确体素。

使用测试集对本发明的网络进行训练，得到图3训练过程中的LOSS曲线，从LOSS曲线中看出网络在经过30万个Batch后已经达到收敛。并对网络进行 IoU验证，生成图4的IoU曲线，可以看出在180个Epoch后网络准确率已经稳定在0.668。然后把准确率最好的训练参数进行保存，用于测试集的验证。

对所有测试集通过上述5个步骤后，生成的部分目标的三维体素特征如图5 所示，可以看出本发明的深度学习模型可以较好的重建出目标的大致轮廓。对所有的数据集进行测试，得到模型的最终平均准确率0.667，并与3D-R2N2和 pix2Vox-A进行比较，最终结果如表1所示。通过表1可以看出，本文模型平均准确率最高，比3D-R2N2高10.7％，比Pix2Vox-A高0.6％，并且在car、watercraft、 table、chair、display、lamNp这6类都比Pix2Vox-A均高0.5％以上。本模型在airplane、car、watercraft、sofa、table、chair、display、lamp、speaker、 telephone这10类准确率最高。

表1本发明的平均IoU与3D-R2N2、Pix2Vox-A对比

类别	3D-R2N2	Pix2Vox-A	本发明网络
				airplane	0.513	0.684	0.687
car	0.798	0.854	0.861
				watercraft	0.513	0.594	0.609
sofa	0.628	0.709	0.713
				table	0.513	0.601	0.608
cabinet	0.716	0.792	0.791
				bench	0.421	0.616	0.614
chair	0.466	0.567	0.572
				display	0.468	0.537	0.538
lamp	0.381	0.443	0.463
				speaker	0.662	0.714	0.717
telephone	0.661	0.776	0.778
				rifle	0.544	0.615	0.614
平均准确率	0.560	0.661	0.667

以上为本发明的具体实施例，但本发明的结构特征并不局限于此，本发明可以用于类似的产品上，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

14页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种博物馆展览用踏鼓舞可交互音画方法及装置

一种基于深度学习的单视图三维重建方法

相关技术

网友询问留言