神经数据压缩的内容自适应优化

文档序号：1943016 发布日期：2021-12-07 浏览：17次 >En<

阅读说明：本技术 神经数据压缩的内容自适应优化 (Content adaptive optimization for neural data compression ) 是由 C·施罗尔斯 S·梅耶尔汉斯 J·坎波斯 J·麦克菲伦 A·贾卢瓦 E·V·多格特 S· 于 2020-05-06 设计创作，主要内容包括：数据处理系统包括计算平台,所述计算平台具有硬件处理器和存储数据压缩软件代码的存储器。硬件处理器执行数据压缩软件代码以接收一系列压缩输入数据,并将该系列中的第一压缩输入数据编码为第一压缩输入数据的潜在空间表示。数据压缩软件代码还解码该潜在空间表示以产生第一压缩输入数据的输入空间表示,所述输入空间表示对应于该潜在空间表示,并且基于第一压缩输入数据与其输入空间表示的比较,生成用于重新编码第一压缩输入数据的f个细化潜在值。然后,数据压缩软件代码使用细化潜在值重新编码第一压缩输入数据,以产生对应于第一压缩输入数据的第一压缩数据。(The data processing system includes a computing platform having a hardware processor and a memory storing data compression software code. The hardware processor executes data compression software code to receive a series of compressed input data and to encode a first compressed input data in the series into a potential spatial representation of the first compressed input data. The data compression software code also decodes the potential spatial representation to produce an input spatial representation of the first compressed input data, the input spatial representation corresponding to the potential spatial representation, and generates f refined potential values for re-encoding the first compressed input data based on a comparison of the first compressed input data with its input spatial representation. The data compression software code then re-encodes the first compressed input data using the refinement latent values to generate first compressed data corresponding to the first compressed input data.)

神经数据压缩的内容自适应优化

背景技术

互联网流量的很大一部分涉及视频内容的传输，在可预见的未来，这一部分可能会继续增加。因为线性压缩基本上是所有视频译码方法的核心，所以图像数据压缩的改进也有望对视频传输产生显著和有益的影响。执行图像压缩的传统方法利用了依赖于手工制作各个组件的压缩编解码器。最近，已经开发了几种基于神经网络的图像压缩方法。

在传统的基于神经网络的图像压缩方法中，通常在图像语料库上优化速率失真目标函数，以便找到由神经网络参数化的用于编码和解码的函数。一旦优化完成，神经网络的训练阶段便结束，编码器函数存储在发送方，而解码器函数存储在接收方。

发明内容

提供了用于为神经数据压缩执行内容自适应优化的系统和方法，这些系统和方法基本上如在至少一个附图中所示和/或结合至少一个附图所描述，并且如在权利要求中更完整地所阐述。

附图说明

图1示出了根据一种实施方式的用于执行神经数据压缩的内容自适应优化的示例性数据处理系统的示意图；

图2示出了根据一种实施方式的适于由图1所示的数据处理系统使用的示例性数据压缩软件代码；

图3示出了根据一种实施方式的用于执行神经数据压缩的内容自适应优化的示例性算法；以及

图4示出了根据一种实施方式的流程图，该流程图呈现了用于执行神经数据压缩的内容自适应优化的示例性方法。

具体实施方式

以下描述包含与本公开中的实施方式相关的特定信息。本领域技术人员将认识到，本公开可以以不同于本文具体讨论的方式来实现。本申请中的附图及其伴随的详细描述仅针对示例性实施方式。除非另有说明，图中相同或相应的元件可以用相同或相应的附图标记表示。此外，本申请中的附图和图示通常不是按比例绘制的，并且不旨在对应于实际的相对尺寸。

本申请公开了一种克服传统技术中的缺点和不足的神经数据压缩解决方案。相比之下，本申请引入了迭代过程，该迭代过程根据被压缩的特定内容调适由神经编码器编码的潜在表示，同时保持神经网络和预测模型的参数固定。本解决方案全面提高了速率失真性能，而与用于实现神经网络的特定体系结构无关。

因此，虽然改进神经数据压缩的传统方法集中在更高效的体系结构和预测模型上，但是本申请中公开的内容自适应优化方法在编码过程中基于每个图像单独地细化，即改进了潜在表示。由于这种每图像自适应，使用本解决方案编码的细化潜像表示在速率失真性能方面比通过神经编码器的简单正向传递获得的潜在表示更高效。

本申请中公开的解决方案是通用的，因此，可以应用于改进许多不同的用于学习数据压缩的体系结构。本神经数据压缩解决方案的显著优点在于，当神经压缩网络和预测模型保持固定并且解码器侧的计算时间保持不变时，其能够提高压缩性能。

注意，如在本申请中所定义的，人工神经网络(ANN)，或简称神经网络(NN)，是一种机器学习框架，其中使用映射输入和输出之间关系的高度连接的计算层来处理观察数据的模式或学习表示。在深度学习的上下文中，“深度神经网络”可以指利用输入和输出层之间的多个隐藏层的神经网络，这可以允许基于原始数据中没有明确定义的特征进行学习。“在线深度学习”可以指这样一种深度学习，其中机器学习模型使用传入数据流来更新，并且设计成随着接收到新数据和/或适应动态系统的新模式而逐渐提高其对特定任务的性能。因此，各种形式的ANN可用于根据过去的实例或“训练数据”对新数据进行预测。在各种实施方式中，ANN可用于执行图像处理或自然语言处理。

图1示出了根据一个实施方式的用于执行神经数据压缩的内容自适应优化的示例性数据处理系统的图。如图1所示，数据处理系统100包括计算平台102，计算平台102具有硬件处理器104以及实现为非暂时性存储设备的系统存储器106。根据本示例性实施方式，系统存储器106存储数据压缩软件代码110，包括通过ANN参数化的神经编码器112和神经解码器114a。

如图1进一步所示，数据处理系统100在包括通信网络120、数据源108和包括神经解码器114b和显示器124的压缩数据接收器126的使用环境中实现。图1中还示出了网络通信链路122、由数据处理系统100经由通信网络120从数据源108接收的一系列压缩输入数据130，以及由数据处理系统100传输到压缩数据接收器126的压缩数据比特流128。

应注意，在一些实施方式中，数据处理系统100可以包括压缩数据接收器126以及计算平台102。应进一步注意，压缩数据接收器126的神经解码器114b基本上与数据压缩软件代码110的神经解码器114a相同。也就是说，神经解码器114b由具有用于参数化神经解码器114a的相同体系结构的相同ANN参数化。还要注意，尽管数据处理系统100可以经由通信网络120和网络通信链路122从数据源108接收一系列压缩输入数据130，但是在一些实施方式中，数据源108可以与计算平台102集成，或者可以与数据处理系统100直接通信，如虚线通信链路118所示。

一系列压缩输入数据130可以包括多种形式的可压缩数据，仅举几个例子，包括图像、音频数据、二维(2D)运动场和颜色残差，在压缩输入数据对应于图像的实施方式中，例如一系列压缩输入数据130可以对应于视频流，例如，其中每个压缩输入数据是单独的视频帧。然而，在其他实施方式中，每个压缩输入数据130可以是单独的颜色值或描述2D运动的数据。

尽管为了概念清楚，本申请将数据压缩软件代码110称为存储在系统存储器106中，但是更一般地，数据压缩软件代码110可以存储在任何计算机可读非暂时性存储介质上。本申请中使用的表述“计算机可读非暂时存储介质”指的是除载波或其他暂时信号之外的能够向硬件处理器(例如计算平台102的硬件处理器104)提供指令的任何介质。因此，计算机可读非暂时性介质可以对应于各种类型的介质，例如易失性介质和非易失性介质。易失性介质可以包括动态存储器，例如动态随机存取存储器(动态RAM)，而非易失性存储器可以包括光、磁或静电存储设备。计算机可读非暂时性介质的常见形式包括，例如，光盘、RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)和闪存。

此外，尽管图1将数据压缩软件代码110描述为整体存储在系统存储器106中，但是该表述也仅仅是为了帮助使概念清晰。更一般地，数据处理系统100可以包括一个或多个计算平台102，例如计算机服务器，其可以位于同一地点，或者可以形成交互式链接但分布式的系统，例如基于云的系统。结果，硬件处理器104和系统存储器106可以对应于数据处理系统100内的分布式处理器和存储器资源。

根据图1所示的实施方式，数据处理系统100经由通信网络120和网络通信链路122从数据源108接收一系列压缩输入数据130。在一个这样的实施方式中，计算平台102可以对应于可通过诸如因特网等分组交换网络访问的一个或多个网络服务器。替代地，计算平台102可以对应于一个或多个支持广域网(WAN)、局域网(LAN)，或者包括在另一种类型的专用或有限分布网络中的计算机服务器。

此外，根据一种实施方式，图2示出了适用于图1中的数据处理系统100的示例性数据压缩软件代码210。图2示出了一系列压缩输入数据x_u…,x_n 230，被接收作为神经编码器212的输入，以及压缩数据流228，被提供作为神经编码器212的输出。如图2所示，除了包括神经编码器212之外，数据压缩软件代码210还包括神经解码器214a和潜在表示优化器240。图2中还示出了一系列压缩输入数据230的示例性第一压缩输入数据232(x₁)、第一压缩输入数据232的编码潜在表示234(y₁)、对应于编码潜在表示234的解码输入空间表示236以及用于重新编码第一压缩输入数据232的第一压缩输入数据细化潜在值238。

一系列压缩输入数据230、包括神经编码器212和神经解码器214a的数据压缩软件代码210以及压缩数据比特流228通常分别对应于图1中的一系列压缩输入数据130、包括神经编码器112和神经解码器114a的数据压缩软件代码110以及压缩数据比特流128。也就是说，一系列压缩输入数据130、数据压缩软件代码110和压缩数据比特流128可以共享本公开归于相应的一系列压缩输入数据230、数据压缩软件代码210和压缩数据比特流228的任何特征，反之亦然。因此，虽然未在图1中示出，但数据压缩软件代码110可以包括潜在表示优化器240。

注意，有损数据压缩的目标是使用神经编码器112/212找到从输入空间X到潜在空间表示y的映射或编码函数ψ：X→Y，以及使用神经解码器114a/214a/114b找到返回原始输入空间的反向映射或解码函数φ：Y→X。映射和反向映射受到以下竞争约束：(1)潜在表示应该占据尽可能少的存储空间，而(2)重建图像应该与原始图像非常相似。

在神经数据压缩中，这种映射是用对应于神经编码器112/212和神经解码器114a/214a/114b的神经编码器-解码器对实现的，其中瓶颈值构成潜在表示。图像x首先被映射到其潜在空间表示y＝ψ(x)。在量化之后，产生的延迟被无损译码成比特流，该比特流可以解码成图像

数据压缩可以正式表示为比特流的预期长度以及重建图像与原始图像x相比的预期失真的最小化，这使得优化了以下速率失真折衷：

在此处，是速率，是失真度量，例如均方误差。速率与基于自然压缩输入数据p_x的未知分布上的学习熵模型来编码量化表示所需的压缩数据比特流128/228的长度相对应。权重λ控制了速率失真折衷，例如，降低λ会得到更高的压缩率，但代价是重建图像失真更大。

改善压缩结果的传统方法试图通过神经编码器112/212和神经解码器114a/214a/114b来优化神经网络体系结构以实现更强大的编码器/解码器变换。在现有方法中，在潜在的数百万个压缩输入数据的语料库上优化等式1，以便找到用于编码和解码的最佳函数(Ψ和Φ)，以及用于神经编码器112/212和神经解码器114a/214b/114b所利用的潜在空间的合适概率模型

尽管已经在压缩输入数据的大语料库上对神经编码器112/212和神经解码器114a/214a/114b进行了训练，以找到在整个数据集上理想的最佳编码函数，但是根据本发明的概念，仍然可以通过根据每个单独的图像进行调适来改进编码。根据本概念的各种实施方式，不改变神经编码器112/212和神经解码器114a/214a/114b或其潜在空间概率模型的参数，而是通过在发送压缩输入数据时改变潜在值本身来执行这种每图像自适应。这样，在本申请中公开的新颖和创造性的方法有效地解决了当单独为每个图像发送压缩输入数据时的优化问题。例如，对于单个图像x，本方法解决了以下问题：

本数据压缩解决方案在执行内容自适应优化时不改变由神经编码器112/212和神经解码器114a/214a/114b利用的概率模型是由于假设神经解码器114b和概率模型已经被训练并部署到压缩数据接收器126。因此，本数据压缩解决方案试图通过仅改变潜在值本身来为每个图像找到最佳离散潜在表示。

有几种实用的技术来解决这个问题，包括离散和连续优化方法。根据一个示例性实施方式，等式2描述的优化问题通过迭代过程来解决，其中根据下式对潜在点应用梯度下降：

存此处，是特定图像x的速率失真目标；

η是应用于梯度的权重。这个过程需要瓶颈中执行的量化操作的可微近似，并且在一个实施方式中，为此目的使用了加性均匀噪声。宽度为1的独立均匀噪声采用符号u，随机变量的密度函数成为概率质量函数的连续可微松弛。

根据一种实施方式，图3中的算法300描述了完整的数据压缩管道。无损算术编码/解码操作用AF/AD表示。第6行上的阶跃函数对应于根据从潜在表示优化器240获得的梯度步长来更新潜在空间表示。在一种实施方式中，例如，潜在空间表示可以1e^-3的学习速率来更新。

现在结合图4来参考图1和图2，图4示出了流程图450，根据一种实施方式，该流程图450呈现了用于执行神经数据压缩的内容自适应优化的示例性方法。关于图4中概述的方法，应当注意，流程图450中省略了某些细节和特征，以免模糊本申请中对发明特征的论述。

应注意，可以对神经编码器112/212和神经解码器114a/214a/114b进行训练以便由ANN参数化，并且可以在流程图450概述的方法开始之前将神经解码器114b和由神经编码器112/212和神经解码器114a/214a/114b利用的概率模型部署到压缩数据接收器126。

流程图450开始于接收一系列压缩输入数据130/230(动作451)。如上所述，在压缩输入数据对应于图像的实施方式中(例如一系列压缩输入数据130/230可以对应于视频流，例如其中每个压缩输入数据130/230是单个视频帧)，一系列压缩输入数据130/230可以包括各种形式的可压缩数据，包括图像、音频数据、2D运动场和颜色残差，仅举几个例子。然而，在其他实施方式中，每个压缩输入数据130/230可以是单独的颜色值或描述2D运动的数据。由硬件处理器104执行的数据压缩软件代码110/210的神经编码器112/212可以接收一系列压缩输入数据130/230。

如上所述，在一些实施方式中，可以经由通信网络120和网络通信链路122从数据源108接收一系列压缩输入数据130/230。然而，也如上所述，在一些实施方式中，数据源108可以与计算平台102集成，或者可以与数据处理系统100直接通信，如虚线通信链路118所示。因此，在一些实施方式中，一系列压缩输入数据130/230可以作为数据处理系统100内的数据传输来接收。

流程图450继续将一系列压缩输入数据130/230中的第一压缩输入数据232编码为第一压缩输入数据232的潜在空间表示234(动作452)。由硬件处理器104执行的数据压缩软件代码110/210的神经编码器112/212可以将一系列压缩输入数据130/230中的第一压缩输入数据232编码为第一压缩输入数据232的潜在空间表示234。如上所述，神经编码器112/212在使用ANN的训练期间被参数化，并且配置为将第一压缩输入数据232编码为第一压缩输入数据232的潜在空间表示234。

流程图450继续解码第一压缩输入数据232的潜在空间表示234，以产生第一压缩输入数据232的对应于第一压缩输入数据232的潜在空间表示234的输入空间表示236(动作453)。由硬件处理器104执行的数据压缩软件代码110/210的神经解码器114a/214a可以解码第一压缩输入数据232的潜在空间表示234，以产生第一压缩输入数据232的输入空间表示236。如上所述，神经解码器114a/214a以及部署到压缩数据接收器126的神经解码器114b在训练期间使用ANN进行参数化，并且配置为解码第一压缩输入数据232的潜在空间表示234，以产生第一压缩输入数据232的输入空间表示236。

流程图450继续基于第一压缩输入数据232与第一压缩输入数据232的输入空间表示236的比较，生成用于对第一压缩输入数据232重新编码的第一压缩输入数据细化潜在值238(动作454)。第一压缩输入数据细化潜在值238可以通过以上述方式由硬件处理器104执行的数据压缩软件代码110/210的潜在表示优化器240生成。也就是说，第一压缩输入数据细化潜在值238可以通过将第一压缩输入数据232与基于上述等式2、3和4的第一压缩输入数据232的输入空间表示236进行比较来生成。

需要强调的是，第一压缩输入数据细化潜在值238不改变神经编码器112/212的潜在空间概率模型的任何参数，该潜在空间概率模型是由神经解码器114a/214a/114b使用的相同潜在空间概率模型。因此，第一压缩输入数据细化潜在值238不改变第一压缩输入数据232的潜在空间表示234的任何参数，仅改变应用于这些参数的潜在值。

流程图450继续使用第一压缩输入数据细化潜在值238对第一压缩输入数据232重新编码，以产生对应于第一压缩输入数据232的第一压缩数据(动作455)。由硬件处理器104执行的数据压缩软件代码110/210的神经编码器112/212可以重新编码第一压缩输入数据232，以产生对应于第一压缩输入数据232的第一压缩数据5ft。

流程图450结束时可以逐个图像地对第二压缩输入数据x₂和一系列压缩输入数据130/230的每个后续压缩输入数据x₃,…,x_n重复上述动作452、452、454和455，以产生压缩数据比特流128/232的压缩数据压缩输入数据(动作456)。对于每个压缩输入数据x₂,…,x_n，可以通过由硬件处理器104执行的数据压缩软件代码110/210重复动作452、453、454和455，如上所述。

例如，硬件处理器104可以执行数据压缩软件代码110/210，以将第二压缩输入数据x₂编码为第二压缩输入数据x₂的潜在空间表示y₂，解码潜在空间表示y₂以产生第二压缩输入数据x₂的对应于潜在空间表示y₂的输入空间表示基于第二压缩输入数据x₂与第二压缩输入数据x₂的输入空间表示的比较，生成用于重新编码第二压缩输入数据x₂的第二压缩输入数据细化潜在值，并使用第二压缩输入数据细化潜在值重新编码第二压缩输入数据x₂，以产生对应于第二压缩输入数据x₂的第二压缩数据以此类推，用于压缩输入数据x₂，…,x_n。

注意，尽管没有包括在流程图450中，但是在一些实施方式中，本方法可以包括将包括第一压缩数据的压缩数据比特流128/228传输到压缩数据接收器126，用于由神经解码器114b解码并由显示器124渲染。注意，显示器124可以实现为液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器或执行信号到光的物理转换的另一合适的显示屏。将压缩数据比特流128/228传输到压缩数据接收器126以由神经解码器114b解码并由显示器124渲染，可以通过由计算平台102的硬件处理器104执行的数据压缩软件代码110/210执行。

因此，本申请公开了一种用于神经数据压缩的内容自适应优化解决方案。本申请中公开的解决方案引入了迭代过程，该迭代过程根据被压缩的特定内容调适由神经编码器编码的潜在表示，同时有利地保持神经网络和预测模型的参数固定。本解决方案全面提高了速率失真性能，而与用于实现神经网络的特定体系结构无关。因此，本文公开的潜在空间调适技术可以是使给定编码过程更强大且内容适配的有效策略。这在诸如内容流之类的使用情形中尤其有利，在这些情形中，与传输和解码相比，编码复杂度不是限制因素。

根据以上描述，很明显，在不脱离本申请中描述的概念的范围的情况下，可以使用各种技术来实现这些概念。此外，虽然已经具体参考某些实施方式描述了这些概念，但是本领域普通技术人员将认识到，可以对其进行形式和细节的改变，而不脱离这些概念的范围。因此，所描述的实施方式在所有方面都被认为是说明性的而非限制性的。还应当理解，本申请不限于本文描述的特定实施方式，而是在不脱离本公开的范围的情况下，许多重新布置、修改和替换都是可能的。

14页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：对称运动矢量差编解码

神经数据压缩的内容自适应优化

相关技术

网友询问留言