基于gpu计算平台的图像并行配准方法、系统、装置

文档序号：1379777 发布日期：2020-08-14 浏览：21次 >En<

阅读说明：本技术 基于gpu计算平台的图像并行配准方法、系统、装置 (Image parallel registration method, system and device based on GPU computing platform ) 是由赵美婷蒿杰吕志丰范秋香于 2020-04-23 设计创作，主要内容包括：本发明属于图像配准技术领域,具体涉及一种基于GPU计算平台的图像并行配准方法、系统、装置,旨在解决现有技术中海量图像下基于傅里叶变换的图像配准算法处理效率低的问题。本发明提供的基于GPU计算平台的图像并行配准方法,将图像配准并行化,对海量图像进行多GPU任务划分,根据图像分辨率大小划分子任务,将子任务分配给GPU的线程块,在核函数内基于傅里叶变换的配准算法并行完成数据计算,从而对图像配准进行加速,且傅里叶变换的配准算法每一个子步骤均是在GPU核函数内完成,使得每个GPU内最大化并行效率。本发明采用异步传输的方式实现数据传输、配准、传回和写入磁盘三个过程流水线并行,提高了海量图像并行配准的效率,做到实时处理。(The invention belongs to the technical field of image registration, and particularly relates to a method, a system and a device for parallel image registration based on a GPU (graphics processing unit) computing platform, aiming at solving the problem of low processing efficiency of an image registration algorithm based on Fourier transform under massive images in the prior art. According to the image parallel registration method based on the GPU computing platform, image registration is parallelized, multiple GPU task division is carried out on massive images, sub tasks are divided according to the size of image resolution, the sub tasks are distributed to thread blocks of the GPU, data computation is completed in parallel in kernel functions based on a Fourier transform registration algorithm, and therefore image registration is accelerated, and each sub step of the Fourier transform registration algorithm is completed in the GPU kernel functions, so that the parallel efficiency in each GPU is maximized. The invention realizes the pipeline parallelism of three processes of data transmission, registration, return and disk writing by adopting an asynchronous transmission mode, improves the efficiency of parallel registration of massive images and realizes real-time processing.)

基于GPU计算平台的图像并行配准方法、系统、装置

技术领域

本发明属于图像配准技术领域，具体涉及一种基于GPU计算平台的图像并行配准方法、系统、装置。

背景技术

图像配准是图像处理中的一种重要技术，主要是指同一目标的两幅或者两幅以上的图像在空间位置的对准，通过寻找一种空间变换把一幅图像映射到另一幅图像上，使得两图中对应于空间同一位置的点一一对应起来的过程。图像配准是精准获得图像信息的重要步骤，在遥感图像、医学图像、计算机视觉和目标定位，甚至是神经研究等多个领域都有广泛研究与应用。

图像配准算法根据不同的方法有着不同的分类方式，包括基于特征的配准算法、基于频域变换的图像配准算法和基于灰度的图像配准算法。其中，基于频域的图像配准算法也是目前应用比较广泛的配准算法，其中最常用的有傅里叶变换。这种算法对配准中的图像平移和缩放都有较高的包容性，但是该算法计算的数据量非常大，尤其是对高分辨率图像进行配准时，图像处理的效率比较低，也限制了研究人员们的科研效率。尤其是在处理海量图像数据时，更是大大的降低了处理效率，在实际研究中较长的图像配准等待成为了一大难题与研究热点。

近年来，图形处理器(Graphics Processing Unit，GPU)已经成为了高性能并行计算领域的首选加速器件。其中使用GPU解决并行计算的重要手段是使用CUDA(ComputeUnified Device Architecture)架构。CUDA是NVIDIA公司在2007年发布的编程模型，为CPU+GPU的异构编程模型。CUDA的出现使得GPU编程变得更简单，功能更强大，应用领域更为广泛。海量数据下的图像配准时间长、效率低等问题限制了研究效率，对此进行算法并行加速就显得十分必要，使用GPU对算法进行加速成为本领域亟需解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术中海量图像下基于傅里叶变换的图像配准算法处理效率低的问题，本发明第一方面提供一种基于GPU计算平台的图像并行配准方法，所述GPU计算平台中GPU的数量为X，所述方法包括以下步骤：

步骤S100，获取模板图像，并通过第一配准算法获取所述模板图像的频域数据，作为第一数据，将所述第一数据分别存储至各GPU的显存中；所述第一配准算法为基于傅里叶变换的配准算法；

步骤S200，将所述模板图像进行分割，得到N个分辨率相同的图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第二数据，将所述第二数据分别存储至各GPU的显存中；

步骤S300，获取待配准图像组，将所述待配准图像组中的待配准图像进行划分，并分别输入至X个内存缓冲区中；

步骤S400，各GPU读取其对应的内存缓冲区中待配准图像至显存，并通过核函数和第一配准算法分别获取各待配准图像的频域图像，作为第三数据；基于所述第一数据、所述第三数据，通过预设的平移参数计算方法获取待配准图像的平移参数并进行平移，将平移后的待配准图像作为第一图像；

步骤S500，将所述第一图像进行分割，得到N个分辨率相同的第二图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第四数据；基于所述第二数据、所述第四数据，通过预设的平移参数计算方法获取所述第二图像的平移参数并进行平移，得到配准后的图像。

在一些优选技术方案中，步骤S200中“将所述模板图像进行分割”和步骤S500中“将所述第一图像进行分割”是基于预设的分割方法进行分割，所述预设的分割方法为：通过设置预设参数的滑动窗口对待分割图像进行分割，分割后得到N个分辨率相同的小图像，N的计算公式为：

其中，W为待分割图像的宽度，H为待分割图像的高度，Sw为滑动窗口的宽度，Sh为滑动窗口的高度，D为滑动窗口的滑动步长。在一些优选技术方案中，步骤S400中所述预设的平移参数计算方法具体包括以下步骤：

步骤A100，基于所述第一数据和所述第三数据，通过CUDA库函数和傅里叶逆变换计算得到各待配准图像的时域数据；

步骤A200，基于所述时域数据，通过核函数计算获取各待配准图像的平移参数。

在一些优选技术方案中，所述GPU计算平台还包括CPU，所述方法还包括以下步骤：步骤S600，各GPU分别将配准后的图像传输至CPU内存，并储存至硬盘。

在一些优选技术方案中，所述步骤S100中“通过第一配准算法获取所述模板图像的频域数据”在GPU内完成。

在一些优选技术方案中，所述步骤S200中“通过预设的分割方法将所述模板图像进行分割，得到N个分辨率相同的图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第二数据”在GPU内完成。

在一些优选技术方案中，步骤S300中“将所述待配准图像组中的待配准图像进行划分”是基于待配准图像的数量和GPU的数量将所述待配准图像组中的待配准图像进行划分。

本发明第二方面提供一种基于GPU计算平台的图像并行配准系统，所述系统包括CPU模块和X个相同的GPU模块；

所述CPU模块配置为将模板图像传输至所述GPU模块，并能够基于待配准图像数量及所述GPU模块数量将待配准图像组中的待配准图像进行划分，并分别输入至X个内存缓冲区中；

所述GPU模块配置为从所述CPU模块中获取模板图像，并通过第一配准算法获取所述模板图像的频域数据，作为第一数据，将所述第一数据分别存储至显存中；所述第一配准算法为基于傅里叶变换的配准算法；

通过预设的分割方法将所述模板图像进行分割，得到N个分辨率相同的图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第二数据，将所述第二数据分别存储至显存中；

读取其对应的内存缓冲区中待配准图像至显存，并通过核函数和第一配准算法分别获取各待配准图像的频域图像，作为第三数据；基于所述第一数据、所述第三数据，通过预设的平移参数计算方法获取待配准图像的平移参数并进行平移，将平移后的待配准图像作为第一图像；

通过预设的分割方法将所述第一图像进行分割，得到N个分辨率相同的第二图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第四数据；基于所述第二数据、所述第四数据，通过预设的平移参数计算方法获取所述第二图像的平移参数并进行平移，得到配准后的图像，并将所述配准后的图像传输至所述CPU模块中。

本发明第三方面提供一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述技术方案中任一项所述的基于GPU计算平台的图像并行配准方法。

本发明第四方面提供一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述技术方案中任一项所述的基于GPU计算平台的图像并行配准方法。

本发明的有益效果：

本发明使用GPU计算平台，能够基于多GPU并行技术实时处理海量图像，并基于傅里叶变换的配准算法每一个子步骤均是在GPU核函数内完成，使得每个GPU内最大化并行效率。

本发明将图像配准并行化，对海量图像进行多GPU任务划分，根据图像分辨率大小划分子任务，将子任务分配给GPU的线程块，在核函数内并行完成数据计算，从而对图像配准进行加速。

本发明将整个处理流程分为三个阶段，采用异步传输的方式使得数据传输与GPU计算并行执行，实现数据传输、配准、传回和写入磁盘三个过程流水线并行，从而进一步提高了海量图像并行配准的效率，达到实时性处理。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明一种基于GPU计算平台的图像并行配准方法实施例的流程框图；

图2为本发明一种基于GPU计算平台的图像并行配准方法实施例的线程关系图；

图3为本发明一种基于GPU计算平台的图像并行配准方法实施例中处理模板数据时内存缓冲区与GPU关系图；

图4为本发明一种基于GPU计算平台的图像并行配准方法实施例中三个处理阶段的流水线示意图；

图5为本发明一种基于GPU计算平台的图像并行配准方法实施例的图像并行配准时内存缓冲区与GPU关系图；

图6为本发明一种基于GPU计算平台的图像并行配准方法实施例的全局图像并行配准算法流程图；

图7为本发明一种基于GPU计算平台的图像并行配准方法实施例的局部图像并行配准流程框图。

具体实施方式

为使本发明的实施例、技术方案和优点更加明显，下面将结合附图对本发明的技术方案进行清楚、完整的描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的基于GPU计算平台的图像并行配准方法，所述GPU计算平台中GPU的数量为X，在本发明的优选实施例中，X为正整数，需要说明的是，本发明的图像并行配准方法对于单GPU同样适用；为了更充分的说明本发明的优点所在，在本发明说明书中以X≥2为例进行具体说明，具体地，下面以多GPU为例对本发明进行说明，本发明的基于GPU计算平台的图像并行配准方法包括以下步骤：

步骤S100，获取模板图像，并通过第一配准算法获取所述模板图像的频域数据，作为第一数据，将所述第一数据分别存储至各GPU的显存中；第一配准算法为基于傅里叶变换的配准算法；

步骤S300，获取待配准图像组，将所述待配准图像组中的待配准图像进行划分，并分别输入至X个内存缓冲区中；

本发明的配准算法是基于CPU+GPU的异构计算平台完成的，应用本发明的配准方法能够在海量图像下，实时、快速、准确、高效的完成高分辨率图像配准。

为了更清晰地对本发明进行说明，下面结合附图对本发明一种优选实施例进行展开详述。

本发明第一方面提供一种基于GPU计算平台的图像并行配准方法，作为本发明的一个优选实施例，采用C/C++和CUDA编写程序。CUDA编程模型使得GPU编程变得简单，功能更加强大。CUDA技术采用一种新的通用并行接口，不用再借助图形API接口，用通用编程语言C/C++即可进行GPU编程。本优选实施例中采用双GPU计算平台。即X为2。本发明的基于GPU计算平台的图像并行配准方法流程框图如图1所示，处理海量图像时，首先GPU获取模板图像，根据配准算法参数对模板图像进行分割，并提前计算好模板图像的相关模板数据分别存入每个GPU显存中。而后对待配准图像进行配准，本方法配准的整体流程上是根据GPU数量划分内存缓冲区个数，依次将待配准图像读取至不同的内存缓冲区中，并通过CUDA编程零拷贝技术依次将多幅图像数据分别传输至每个GPU显存中进行配准处理，待处理完成后将配准好的图像分别传回内存并存入磁盘中。在整个数据传输上形成图像数据传入显存—GPU并行配准—配准结果传回内存写入磁盘的实时流水线处理。每次将完整的待配准图像放入GPU显存，进行并行配准，直至配准完成，将配准结果再返回GPU内存。CPU中只进行了原始图像读取和配准结果图像存储的任务，所有配准算法步骤均是在GPU内完成，大大提高了并行处理效率。

具体地，在每个GPU中对一整幅图像进行并行配准，根据待配准图像数量和GPU数量进行任务划分，把任务分配给不同的GPU。在每个GPU内的配准分为全局配准和局部配准两部分，先进行全局配准，然后在全局配准结果上对图像切割，进行局部配准。

首先进行全局配准，根据图像分辨率大小划分子任务，把子任务分配给GPU的kernel(核函数)。根据基于傅里叶变换的配准算法计算图像相对于模板图像的全局几何变换关系。

进一步地，局部配准，因为全局配准是对图像整体进行校准，图像局部的配准精度较低，不能满足图像确定部位的精准研究。局部配准就是对图像进行分割，将图像分割成N个小图像，根据N的大小和小图像分辨率的大小划分子任务，将子任务分配给GPU处理器，并同样采用基于傅里叶变换的配准算法计算每幅小图像相对于模板图像同样位置的小图像进行配准。

在本发明的优选实施例中，模板图像为已知确定好的图像，将模板图像分别传入每个GPU显存，划分成可以并行执行的任务。在每个GPU中根据基于傅里叶变换的配准算法，对模板图像的整幅图像进行傅里叶变换，并保存其频域数据在显存中，此数据为全局配准模板数据，即为第一数据。

进一步地，模板图像分割是在每个GPU内完成的，按照预设的分割方法进行分割，预设的分割方法为滑动窗口分割，通过设置预设参数的滑动窗口对待分割图像进行分割，分割后得到N个分辨率相同的小图像，N的计算公式为：

N＝Wn*Wm

其中，W为待分割图像的宽度，H为待分割图像的高度，Sw为滑动窗口的宽度，Sh为滑动窗口的高度，D为滑动窗口的滑动步长。

在本发明的优选实施例中，模板图像分割后，根据小图像的个数N和小图像的分辨率大小Sw*Sh进行任务划分，并在GPU的kernel(核函数)内完成并行计算，即根据基于傅里叶变换的配准算法，对每幅小图像进行傅里叶变换，并保存其频域数据在显存中，此数据即为局部配准模板数据，即为第二数据。

在一些优选实施例中，步骤S300中，“将所述待配准图像组中的待配准图像进行划分”基于待配准图像的数量和GPU的数量将所述待配准图像组中的待配准图像进行划分，同时也根据GPU和缓冲区个数进行任务划分，每个任务处理过程中GPU与缓冲区一一对应，即GPU1处理缓冲区1中的图像，GPU2处理缓冲区2中的图像，实现海量图像的任务并行处理，具体可参阅图5。

内存缓冲区的个数与GPU的数量相同。每个缓冲区在任务分配时可以存储图像个数为P：

P＝M/GPU数量

其中M表示待配准的图像数量。需要说明的是，本发明应用于海量图像下的并行配准，因此当P为整数时，系统分配给每个GPU的任务数量相同，便于并行完成配准任务。当P为非整数时，系统采用随机分配方式将多余任务分配至任一GPU中，使得多GPU之间任务数量相差不大，仍然能完成并行配准。缓冲区采用循环缓冲区的方法存储，每处理完一幅图像释放一个区域，保证海量图像数据的持续处理。

更进一步地，本发明采用异步传输的方式使得CPU-GPU数据传输与GPU计算进行并行，避免GPU并行加速经常面临的CPU-GPU数据传输瓶颈。对每一幅图像进行配准主要分为四个阶段，第一个阶段是将图像从CPU内存传入GPU显存，第二个阶段是启动核函数计算进行配准，第三个阶段是将配准好的图像数据传输回主机写入磁盘。实现数据传输、配准、传回和写入磁盘3个过程流水线并行。

优选地，步骤S400是全局配准，将基于傅里叶变换的配准算法中每一个子步骤都分配给GPU的kernel(核函数)处理。采用全局图像并行配准算法在算法的每个子步骤根据图像分辨率大小W*H进行任务划分，计算合适的线程块大小，启动核函数进行并行计算。整个配准流程均在GPU中进行并行处理，使得配准算法并行效率最大化。

预设的平移参数计算方法具体包括以下步骤：步骤A100，基于第一数据和第三数据，通过CUDA库函数和傅里叶逆变换计算得到各待配准图像的时域数据；步骤A200，基于时域数据，通过核函数计算获取各待配准图像的平移参数。

图6为GPU中全局配准并行处理流程，主要包含以下算法子步骤：

算法子步骤1：根据两次启动GPU核函数的方法，并行计算出全局图像像素数据和；

算法子步骤2：根据图像分辨率划分合适的线程块和网格大小，启动GPU核函数，对算法子步骤1中的全局图像像素数据和进行图像中值化并行处理。

算法子步骤3：基于算法子步骤2得到的结果，通过CUDA库函数计算FFT(快速傅里叶变换)，得到待配准图像的频域数据即第三数据；

算法子步骤4：利用GPU对算法子步骤3中得到的第三数据和第一数据进行并行乘法；

算法子步骤5：根据CUDA库函数对子步骤4中的结果进行傅里叶逆变换，得到时域数据；

算法子步骤6：根据分辨率划分线程块和网格大小，自定义核函数，对时域数据进行移动变换；

算法子步骤7：根据两次启动GPU核函数的方法，找到数据峰值最大值所对应的坐标，进而得到各待配准图像的平移参数；

算法子步骤8：同样根据图像分辨率划分合适的线程块和网格大小，基于算法子步骤7中的平移参数对原始图像进行并行平移，得到配准好的图像数据，即第一图像。

步骤S500为局部配准，在每个GPU内按照上述的预设的分割方法对第一图像进行分割，并根据图像分辨率大小进行线程块划分，启动GPU的kernel函数(核函数)进行并行切割，启动核函数即可一次得到N个分辨率相同的小图像数据，即为第二图像。

图7展示了本发明的局部配准并行算法流程，在每个GPU内利用核函数对全局配准结果图像进行分割，一次得到N个小图像数据，并根据全局图像并行配准算法进行局部配准。首先利用CUDA的cuFFT库函数batch方法，一次完成N个小图像的fft计算，然后在GPU内对N个小图像依次循环进行并行局部配准算法计算，得到每个局部图像的平移参数，并根据全局图像分辨率划分子任务，选取合适的线程块和网格大小，启动一次核函数，并行处理图像局部调整，得到最终的配准结果，采用Zero-Copy(零拷贝)方法异步传回至CPU内存中。

按照上述全局图像并行配准算法，在GPU内对N个第二图像依次进行并行局部配准算法计算得到其对应的频域数据，作为第四数据，基于第二数据、第四数据，通过预设的平移参数计算方法得到每个局部图像的平移参数，并根据全局图像分辨率划分子任务，选取合适的线程块和网格大小，启动一次核函数，并行处理图像进行局部调整，得到最终配准后的图像，传回至CPU内存中，并储存至硬盘。

经过以上所有步骤实现了基于GPU计算平台的图像并行配准方法(算法)。本发明提出了使用多GPU并行技术来处理海量图像，并在每个GPU内最大化并行效率，使得配准算法的每一个子步骤均是在GPU核函数内完成。图像配准算法是图像处理中很耗时的部分，我们将图像配准并行化，对海量图像进行多GPU任务划分，根据图像分辨率大小划分子任务，将子任务分配给GPU的线程块，在核函数内并行的完成数据计算，从而对图像配准进行加速；并且，本发明将整个处理流程分为三个阶段，采用异步传输的方式使得数据传输与GPU计算并行执行，实现数据传输、配准、传回和写入磁盘三个过程流水线并行，从而进一步提高了海量图像并行配准的效率，达到实时性处理。

为了验证本发明方法的执行效率，本发明采用高分辨率图像作为原始数据，随机选取部分图像作为模板参考图像，在确保实验正确性的基础上进行了3个实验。本实验环境如详细配置表1所示。

表1本实验环境配置

实验1

本实验采用是2048*2048和2048*1024高分辨率图像作为原始数据模板图像进行配准实验，对比串行方法验证本发明并行配准算法的高效率，实验结果如下表2所示。

表2高分辨图像下串行方法与本发明方法计算时间比较

由表2可以看出，在高分辨率图像实验中，本发明并行配准算法执行效率高，能够大幅度缩短配准时间，与CPU下的串行配准算法相比，本发明并行配准方法的加速比可达183左右。由于本发明配准并行算法全部过程都是在GPU内完成，充分发挥了GPU的并行计算性能，有效的提高了配准算法运行效率。

实验2

本实验采用2048*2048高分辨率图像作为原始数据，测试海量图像背景下，对比串行方法验证本发明并行配准算法的稳定性，实验结果如表3所示。

表3海量图像下串行方法与本发明方法计算时间比较

由表3可以看出，在海量图像实验中，本发明的并行配准算法执行稳定，运行时间基本成线性增长，与串行方法相比，加速比稳定在155左右。

实验3

本实验采用2048*2048高分辨率图像作为原始数据，测试单GPU和双GPU下并行算法运行时间比较，实验结果如表4所示。

表4单GPU与双GPU下本发明并行配准算法计算时间比较

由表4可以看出，本发明并行配准算法，在单GPU下运行时间是双GPU下运行时间的2倍，因为在海量图像背景下，双GPU并行采用的是任务划分，根据GPU个数进行图像数量等分，因此随着GPU越多，运行时间会线性降低，加速比成线性增长。

本发明优选实施例第二方面提供一种基于GPU计算平台的图像并行配准系统，其包括CPU模块和X个相同的GPU模块，其中X为正整数，需要说明的是，本发明的图像并行配准系统对于单GPU同样适用；为了更充分的说明本发明的优点所在，在本发明说明书中以X≥2为例进行具体说明；所述CPU模块配置为将模板图像传输至所述GPU模块，并能够基于待配准图像数量及所述GPU模块数量将待配准图像组中的待配准图像进行划分，并分别输入至X个内存缓冲区中；所述GPU模块配置为从所述CPU模块中获取模板图像，并通过第一配准算法获取所述模板图像的频域数据，作为第一数据，将所述第一数据分别存储至显存中；所述第一配准算法为基于傅里叶变换的配准算法；通过预设的分割方法将所述模板图像进行分割，得到N个分辨率相同的图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第二数据，将所述第二数据分别存储至显存中；读取其对应的内存缓冲区中待配准图像至显存，并通过核函数和第一配准算法分别获取各待配准图像的频域图像，作为第三数据；基于所述第一数据、所述第三数据，通过预设的平移参数计算方法获取待配准图像的平移参数并进行平移，将平移后的待配准图像作为第一图像；通过预设的分割方法将所述第一图像进行分割，得到N个分辨率相同的第二图像，并分别通过所述第一配准算法计算得到其对应的频域数据，作为第四数据；基于所述第二数据、所述第四数据，通过预设的平移参数计算方法获取所述第二图像的平移参数并进行平移，得到配准后的图像，并将所述配准后的图像传输至所述CPU模块中。

本发明优选实施例第三方面提供一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于GPU计算平台的图像并行配准方法。

本发明优选实施例第四方面提供一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于GPU计算平台的图像并行配准方法。

上述本申请实施例中的技术方案中，至少具有如下的技术效果及优点：

本发明使用GPU计算平台，能够基于多GPU并行技术实时处理海量图像，并基于傅里叶变换的配准算法每一个子步骤均是在GPU核函数内完成，使得每个GPU内最大化并行效率。本发明将图像配准并行化，对海量图像进行多GPU任务划分，根据图像分辨率大小划分子任务，将子任务分配给GPU的线程块，在核函数内并行完成数据计算，从而对图像配准进行加速。本发明将整个处理流程分为三个阶段，采用异步传输的方式使得数据传输与GPU计算并行执行，实现数据传输、配准、传回和写入磁盘三个过程流水线并行，从而进一步提高了海量图像并行配准的效率，达到实时性处理。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

17页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种病理数据载体及其管理系统

基于gpu计算平台的图像并行配准方法、系统、装置

相关技术

网友询问留言