用于执行平面帧内预测视频编码的系统和方法

文档序号：1722494 发布日期：2019-12-17 浏览：18次 >En<

阅读说明：本技术 用于执行平面帧内预测视频编码的系统和方法 (System and method for performing planar intra-prediction video coding ) 是由基兰·穆克什·米斯拉赵杰克里斯托弗·安德鲁·塞格尔于 2017-12-21 设计创作，主要内容包括：一种产生对视频数据区域的预测的方法,所述方法包括：接收包括样本值的矩形视频块；以及对于所述视频块中包括的每个样本,通过对与所述视频块内的样本的位置相对应的水平内插和竖直内插求平均来产生预测性样本值。(a method of generating a prediction for a region of video data, the method comprising: receiving a rectangular video block comprising sample values; and for each sample included in the video block, generating a predictive sample value by averaging horizontal and vertical interpolations corresponding to locations of samples within the video block.)

技术领域

本公开涉及视频编码，并且更具体地，涉及用于对视频数据的图片进行分块的技术。

背景技术

数字视频功能可以并入到各种设备中，包括数字电视、便携式计算机或台式计算机、平板计算机、数字录音设备、数字媒体播放器、视频游戏设备、包括所谓的智能电话的蜂窝电话、医疗成像设备等。可以根据视频编码标准对数字视频进行编码。视频编码标准可以包含视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4 Visual和ITU-T H.264(也称为ISO/IEC MPEG-4 AVC)和高效视频编码(HEVC)。HEVC被描述为高效视频编码(HEVC)，Rec ITU-T H.265，2015年4月，其通过引用结合于此，并且在本文中称为ITU-T H.265。ITU-T H.265的扩展和改进目前正在考虑用于下一代视频编码标准的开发。例如，ITU-T视频编码专家组(VCEG)和ISO/IEC(运动图像专家组(MPEG)(统称为联合视频探索组(JVET))正在研究未来视频编码技术标准化的潜在需求，其压缩能力远远超过目前的HEVC标准。联合浏览模型3(JEM 3)、联合浏览测试模型3(JEM 3)的算法描述、ISO/IEC JTC1/SC29/WG11文档：JVET-C1001v3，2016年5月，日内瓦，CH(其通过引用并入本文)描述了由JVET进行的协调测试模型研究下的编码特征，作为超出ITU-T H.265能力的潜在增强视频编码技术。应该注意的是，JEM 3的编码特征是在弗劳恩霍夫(Fraunhofer)研究组织维护的JEM参考软件中实现的。目前，可以使用更新的JEM参考软件版本3(JEM 3.0)。如本文所使用的，术语JEM用于共同地指代JEM 3中包括的算法和JEM参考软件的实现。

视频压缩技术使得能够减少用于存储和发送视频数据的数据需求。视频压缩技术可以通过利用视频序列中的固有冗余来减少数据需求。视频压缩技术可以将视频序列细分成连续的较小部分(即，视频序列内的帧组、帧组内的帧、帧内的切片、切片内的编码树单元(例如，宏块)、编码树单元内的编码块等)。帧内预测编码技术(例如，图片内(空间))和帧间预测技术(即，图片间(时间))可以用于产生要编码的视频数据单元与视频数据的参考单元之间的差值。差值可以称为残差数据。可以将残差数据编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元(例如，帧内预测模式索引、运动矢量和块矢量)。可以对残差数据和语法元素进行熵编码。熵编码的残差数据和语法元素可以被包括在兼容的比特流中。

发明内容

一种产生视频数据区域的预测的方法，包括：接收包括样本值的矩形视频块；以及对于所述视频块中包括的每个样本，通过对与所述视频块内的样本的位置相对应的水平内插和竖直内插求平均来产生预测性样本值。

附图说明

图1是示出根据本公开的一种或多种技术的根据四叉树二叉树(quad treebinary tree)分块所编码的一组图片的示例的概念图。

图2是示出根据本公开的一种或多种技术的四叉树二叉树的示例的概念图。

图3是示出根据本公开的一种或多种技术的视频分量四叉树二叉树分块的概念图。

图4是示出根据本公开的一种或多种技术的视频分量采样格式的示例的概念图。

图5是示出根据本公开的一种或多种技术的视频数据块的可能编码结构的概念图。

图6A是示出根据本公开的一种或多种技术的对视频数据块进行编码的示例的概念图。

图6B是示出根据本公开的一种或多种技术的对视频数据块进行编码的示例的概念图。

图7是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行编码和解码的系统的示例的框图。

图8是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行编码的视频编码器的示例的框图。

图9是示出根据本公开的一种或多种技术的视频分量四叉树二叉树分块的概念图。

图10是示出根据本公开的一种或多种技术的视频分量四叉树二叉树分块的概念图。

图11是示出根据本公开的一种或多种技术的四叉树二叉树的示例的概念图。

图12是示出根据本公开的一种或多种技术的四叉树二叉树分块的概念图。

图13是示出根据本公开的一种或多种技术的四叉树二叉树分块的概念图。

图14是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行解码的视频解码器的示例的框图。

图15A是示出根据本公开的一种或多种技术执行帧内预测的示例的概念图。

图15B是示出根据本公开的一种或多种技术执行帧内预测的示例的概念图。

图16A是示出根据本公开的一种或多种技术执行帧内预测的示例的概念图。

图16B是示出根据本公开的一种或多种技术执行帧内预测的示例的概念图。

具体实施方式

总体上，本公开描述了用于对视频数据进行编码的各种技术。特别地，本公开描述了用于对视频数据的图片进行分块的技术。应当注意，尽管关于ITU-T H.264、ITU-T H.265和JEM描述了本公开的技术，但是本公开的技术通常适用于视频编码。例如，本文描述的编码技术可以合并到包括块结构、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或除ITU-T H.265和JEM中包括的编码技术之外的熵编码技术的视频编码系统(包括基于未来视频编码标准的视频编码系统)中。因此，对ITU-T H.264、ITU-T H.265和/或JEM的引用是出于描述的目的，不应被解释为限制本文描述的技术的范围。此外，应当注意，通过引用并入本文中的文档是出于描述的目的，并且不应被解释为限制或产生关于本文使用的术语的歧义。例如，在并入的参考文献提供与另一个并入的参考文献和/或与本文中使用的术语不同的术语定义的情况下，该术语应该以如下的方式被解释：广泛地包括每个相应的定义和/或在包括备选方案中的每个特定定义。

在一个示例中，一种用于产生视频数据区域的预测的设备包括：一个或多个处理器，所述一个或多个处理器被配置为：接收包括样本值的矩形视频块；并且对于所述视频块中包括的每个样本，通过对与所述视频块内的样本的位置相对应的水平内插和竖直内插求平均来产生预测性样本值。

在一个示例中，一种非暂时性计算机可读存储介质，包括存储在其上的指令，所述指令在被执行时使得设备的一个或多个处理器：接收包括样本值的矩形视频块；以及对于所述视频块中包括的每个样本，通过对与所述视频块内的样本的位置相对应的水平内插和竖直内插求平均来产生预测性样本值。

在一个示例中，一种装置包括：用于接收包括样本值的矩形视频块的装置；以及用于针对所述视频块中包括的每个样本通过对与所述视频块内的样本的位置相对应的水平内插和竖直内插求平均来产生预测性样本值的装置。

在附图和以下描述中阐述了一个或多个示例的细节。根据说明书和附图以及权利要求，其他特征、目的和优点将是显而易见的。

视频内容通常包括由一系列帧(或图片)组成的视频序列。一系列帧也可以称为一组图片(GOP)。每个视频帧或图片可以包括多个切片或拼块(tile)，其中切片或拼块包括多个视频块。如本文所使用的，术语视频块通常可以指代图片的区域，或者可以更具体地指代可以被预测编码的最大样本值阵列、其子分区和/或对应的结构。此外，术语“当前视频块”可以指代正被编码或解码的图片的区域。视频块可以被定义为可以被预测编码的样本值阵列。应当注意，在一些情况下，像素值可以被描述为包括视频数据的各个分量的样本值，其也可以被称为颜色分量(例如，亮度(Y)和色度(Cb和Cr)分量或者红色、绿色和蓝色分量)。应注意，在一些情况下，术语像素值和样本值可互换使用。可以根据扫描模式(例如，光栅扫描)在图片内对视频块进行排序。视频编码器可对视频块及其子分区执行预测编码。视频块和其子分区可以称为节点。

ITU-T H.264规定了包括16×16亮度样本的宏块。也就是说，在ITU-T H.264中，图片被分段为宏块。ITU-T H.265规定了类似的编码树单元(CTU)结构。在ITU-T H.265中，图片被分段为CTU。在ITU-T H.265中，对于图片，CTU大小可以被设置为包括16×16、32×32或64×64亮度样本。在ITU-T H.265中，CTU由用于视频数据的每个分量(例如，亮度(Y)和色度(Cb和Cr))的相应编码树块(CTB)组成。此外，在ITU-T H.265中，可以根据四叉树(QT)分块结构来对CTU进行分块，这导致CTU的CTB被分块为编码块(CB)。也就是说，在ITU-T H.265中，CTU可以被分块为四叉树叶节点。根据ITU-T H.265，将一个亮度CB与两个对应的色度CB和相关联的语法元素一起称为编码单元(CU)。在ITU-T H.265中，可以发信号通知CB的最小允许大小。在ITU-T H.265中，亮度CB的最小的最小允许大小是8×8亮度样本。在ITU-TH.265中，使用帧内预测或帧间预测对图片区域进行编码的决定是在CU级别进行的。

在ITU-T H.265中，CU与其根在CU处的的预测单元(PU)结构相关联。在ITU-TH.265中，PU结构允许拆分亮度和色度CB，以便产生对应的参考样本。也就是说，在ITU-TH.265中，亮度和色度CB可以被分成相应的亮度和色度预测块(PB)，其中PB包括应用相同预测的样本值块。在ITU-T H.265中，CB可以被分块为1、2或4个PB。ITU-T H.265支持从64×64样本下降到4×4样本的PB大小。在ITU-T H.265中，支持方形PB以用于帧内预测，其中CB可以形成PB，或者CB可以被分成四个方形PB(即，帧内预测PB大小类型包括M×M或M/2×M/2，其中M是方形CB的高度和宽度。在ITU-T H.265中，除了方形PB之外，还支持矩形PB以用于帧间预测，其中CB可以竖直地或水平地减半以形成PB(即，帧间预测PB类型包括M×M、M/2×M/2、M/2×M或M×M/2)。此外，应该注意的是，在ITU-T H.265中，对于帧间预测，支持四个不对称PB分块，其中CB在高度的四分之一处(在顶部或底部)或在CB的宽度的四分之一处(在左侧或右侧)被分块为两个PB(即，不对称分块包括M/4×M左、M/4×M右、M×M/4顶和M×M/4底)。对应于PB的帧内预测数据(例如，帧内预测模式语法元素)或帧间预测数据(例如，运动数据语法元素)用于产生PB的参考和/或预测样本值。

JEM指定CTU的最大大小为256×256亮度样本。JEM指定四叉树加二叉树(QTBT)块结构。在JEM中，QTBT结构使得四叉树叶节点能够通过二叉树(BT)结构进一步分块。也就是说，在JEM中，二叉树结构使得四叉树叶节点能够竖直地或水平地递归划分。图1示出了CTU(例如，具有256×256亮度样本的大小的CTU)被分块为四叉树叶节点并且四叉树叶节点根据二叉树被进一步分块的示例。也就是说，在图1中，虚线表示四叉树中的附加二叉树分块。因此，JEM中的二叉树结构实现方形和矩形叶节点，其中每个叶节点包括CB。如图1所示，包括在GOP中的图片可以包括切片，其中每个切片包括CTU序列，并且每个CTU可以根据QTBT结构来分块。图1示出了切片中包括的一个CTU的QTBT分块的示例。图2是示出与图1所示的示例QTBT分块相对应的QTBT的示例的概念图。

在JEM中，通过发信号通知QT***标志和BT***模式语法元素来发信号通知QTBT。当QT***标志具有值1时，指示QT***。当QT***标志具有值0时，发信号通知BT***模式语法元素。当BT***模式语法元素具有值0时，不指示二叉***。当BT***模式语法元素具有值1时，指示***模式。当BT***模式语法元素具有值2时，指示水平***模式。此外，可以执行BT***，直到达到最大BT深度。因此，根据JEM，可以基于表1中提供的伪语法来发信号通知图2中所示的QTBT：

表1

在一个示例中，当达到最大QT深度时，可以跳过QT标志的信令，并且可以推断出其值，例如，为0。在一个示例中，在当前深度小于最小QT深度时，可以跳过QT标志的信令，并且可以推断出其值，例如，为1。在一个示例中，当达到用于分块类型的信令的最大深度时，可以不在比特流中发信号通知关联的语法元素，并且可以推断出其值。在一个示例中，当尚未达到用于分块类型的信令的最小深度时，可以不在比特流中发信号通知关联的语法元素，并且可以推断出其值。在一个示例中，当不允许QT***并且当前深度小于最小BT深度时，然后可以修改BT***的信令以不允许BT***以等于0。

在一个示例中，遵循树遍历可以用于发信号通知***决策。例如：

1.当前节点的信号***决策

2.对于i＝1到当前节点的子节点数(步长为1)，执行以下操作：

a.确定对应于i的子节点n(这可以基于查找，即基于当前节点的***模式)

b.通过递归调用遍历函数来遍历以子节点n为根的子树。

在一个示例中，遵循树遍历可以用于发信号通知***决策。例如：

1.对于i＝1到当前节点的子节点数(步长为1)，执行以下操作：

a.确定对应于i的子节点n(这可以基于查找，即基于当前节点的***模式)

b.递归调用遍历函数，来遍历以子节点n为根的子树。

c.当前节点的信号***决策

在一个示例中，遵循树遍历可以用于发信号通知***决策。例如：

1.对于i＝1到当前节点的子节点数(步长为1)，执行以下操作：

a.确定对应于i的子节点n(这可以基于查找，即基于当前节点的***模式)

b.通过递归调用遍历函数来遍历以子节点n为根的子树。

2.当前节点的信号***决策。

在一个示例中，可以以增加的深度遍历树。在这种情况下，可以在行进到下一深度之前发信号通知特定深度处的节点的所有***决策。

如图2和表1中所示，QT***标志语法元素和BT***模式语法元素与深度相关联，其中零深度对应于QTBT的根，而较高值深度对应于超出根的后续深度。此外，在JEM中，亮度和色度分量可以具有单独的QTBT分块。也就是说，在JEM中，可以通过发信号通知相应的QTBT来独立地对亮度和色度分量进行分块。图3示出了根据亮度分量的QTBT和色度分量的独立QTBT所分块的CTU的示例。如图3所示，当独立QTBT用于对CTU进行分块时，亮度分量的CB不需要并且不必与色度分量的CB对齐。目前，在JEM中，使用帧内预测技术对切片实现独立的QTBT结构。应当注意，在一些情况下，可能需要从相关的亮度变量值导出色度变量的值。在这些情况下，色度和色度格式的样本位置可以用于确定亮度中的相应样本位置以确定相关联的亮度变量值。

另外，应该注意JEM包括用于QTBT树的信令的以下参数：

CTU大小：四叉树的根节点大小(例如，256×256、128×128、64×64、32×32、16×16亮度样本)；

最小QT大小(MinQTSize)：最小允许四叉树叶节点大小(例如，16×16、8×8亮度样本)；

最大BT大小(MaxBTSize)：最大允许二叉树根节点大小，即可以通过二叉***分块的叶四叉树节点的最大大小(例如，64×64亮度样本)；

最大BT深度(MaxBTDepth)：最大允许二叉树深度，即可发生二叉***的最低水平，其中四叉树叶节点是根(例如，3)；

最小BT大小(MinBTSize)：最小允许二叉树叶节点大小；即，二叉叶节点的最小宽度或高度(例如，4个亮度样本)。

应该注意的是，在一些示例中，MinQTSize、MaxBTSize、MaxBTDepth和/或MinBTSize可以针对视频的不同分量而不同。

在JEM中，CB用于预测而无需进一步分块。也就是说，在JEM中，CB可以是应用相同预测的样本值的块。因此，JEM QTBT叶节点可以类似于ITU-T H.265中的PB。

视频采样格式——其也可以称为色度格式——可以相对于CU中包括的亮度样本的数量来定义CU中包括的色度样本的数量。例如，对于4:2:0采样格式，亮度分量的采样率是水平和竖直方向的色度分量的两倍。结果，对于根据4:2:0格式所格式化的CU，亮度分量的样本阵列的宽度和高度是色度分量的每个样本阵列的宽度和高度的两倍。图4是示出根据4:2:0样本格式所格式化的编码单元的示例的概念图。图4示出了色度样本相对于CU内的亮度样本的相对位置。如上所述，通常根据水平和竖直亮度样本的数量来定义CU。因此，如图4所示，根据4:2:0样本格式所格式化的16×16CU包括亮度分量的16×16个样本和每个色度分量的8×8个样本。此外，在图4所示的示例中，示出了色度样本相对于与16×16CU相邻的视频块的亮度样本的相对位置。对于根据4:2:2格式所格式化的CU，亮度分量的样本阵列的宽度是每个色度分量的样本阵列宽度的两倍，但是亮度分量的样本阵列的高度等于每个色度分量的样本阵列的高度。此外，对于根据4:4:4格式所格式化的CU，亮度分量的样本阵列具有与每个色度分量的样本阵列相同的宽度和高度。

如上所述，帧内预测数据或帧间预测数据用于产生样本值块的参考样本值。包括在当前PB或另一类型的图片区域结构中的样本值与相关联的参考样本(例如，使用预测产生的参考样本)之间的差异可以被称为残差数据。残差数据可以包括与视频数据的每个分量相对应的各个差值的阵列。残差数据可以在像素域中。诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换之类的变换可以应用于差值阵列以产生变换系数。应当注意，在ITU-T H.265中，CU与其根在CU水平处的变换单元(TU)结构相关联。也就是说，在ITU-T H.265中，为了产生变换系数，可以对差值阵列进行细分(例如，可以将四个8×8变换应用于16×16残差值阵列)。对于视频数据的每个分量，差值的这种细分可以称为变换块(TB)。应当注意，在ITU-T H.265中，TB不必与PB对齐。图5示出了可用于对特定CB进行编码的备选PB和TB组合的示例。此外，应注意，在ITU-T H.265中，TB可具有以下大小：4×4、8×8、16×16和32×32。

应当注意，在JEM中，对应于CB的残差值用于产生变换系数而无需进一步分块。也就是说，在JEM中，QTBT叶节点可以类似于ITU-T H.265中的PB和TB。应当注意，在JEM中，可以(在视频编码器中)应用核心变换和随后的二次变换以产生变换系数。对于视频解码器，变换的次序是相反的。此外，在JEM中，是否应用二次变换以产生变换系数可取决于预测模式。

可以对变换系数执行量化处理。量化对变换系数进行按比例缩放以便改变表示一组变换系数所需的数据量。量化可以包括通过量化比例因子和任何相关联的舍入函数(例如，舍入到最接近的整数)来对变换系数进行划分。量化的变换系数可以称为系数水平值。逆量化(或“反量化”)可以包括将系数水平值乘以量化比例因子。应当注意，如本文所使用的，在一些情况下，术语量化过程可以指通过除以比例因子以产生水平值并乘以比例因子以在某些情况下恢复变换系数。也就是说，量化处理在某些情况下可以指量化并且在某些情况下可以指逆量化。此外，应当注意，尽管在下面的示例中，关于与十进制符号相关联的算术运算描述了以下量化过程，但是这样的描述是出于说明性目的而不应被解释为限制性的。例如，这里描述的技术可以使用二叉操作等在设备中实现。例如，可以使用比特移位(bit shifting)操作等来实现这里描述的乘法和除法运算。

图6A至图6B是示出对视频数据块进行编码的示例的概念图。如图6A所示，通过从当前视频数据块中减去一组预测值而产生残差，对残差执行变换，并量化变换系数以产生水平值，从而对当前视频数据块(例如，对应于视频分量的CB)进行编码。如图6B所示，通过对水平值执行逆量化，执行逆变换，并将一组预测值添加到所得到的残差来对当前视频数据块进行解码。应当注意，在图6A至图6B的示例中，重建块的样本值不同于被编码的当前视频块的样本值。以这种方式，编码可以被认为是有损的。然而，对于重建视频的观看者，样本值的差可以认为是可接受的或不可察觉的。此外，如图6A至图6B所示，使用比例因子阵列来执行按比例缩放。

在ITU-T H.265中，通过选择缩放矩阵并将缩放矩阵中的每个条目乘以量化比例因子来产生比例因子阵列。在ITU-T H.265中，基于预测模式和颜色分量来选择缩放矩阵，其中定义了以下大小的缩放矩阵：4×4、8×8、16×16和32×32。因此，应该注意，ITU-TH.265没有为4×4、8×8、16×16和32×32以外的大小定义缩放矩阵。在ITU-T H.265中，量化比例因子的值可以由量化参数QP确定。在ITU-T H.265中，QP可以取0到51的52个值，并且QP的1的变化通常对应于量化比例因子值的变化约12％。此外，在ITU-T H.265中，可以使用预测量化参数值(其可以被称为预测QP值或QP预测值)和可选地发信号通知的量化参数Δ值(可以称为QPΔ值或ΔQP值)来导出一组变换系数的QP值。在ITU-T H.265中，可以针对每个CU来更新量化参数，并且可以针对亮度(y)和色度(Cb和Cr)分量中的每一个来导出量化参数。

如图6A所示，量化的变换系数被编码到比特流中。可以根据熵编码技术对量化的变换系数和语法元素(例如，指示视频块的编码结构的语法元素)进行熵编码。熵编码技术的示例包括内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间划分熵编码(PIPE)等。熵编码的量化变换系数和对应的熵编码语法元素可以形成可以用于在视频解码器处再现视频数据的兼容比特流。熵编码过程可以包括对语法元素执行二值化。二值化是指将语法值的值转换为一个或多个比特的序列的过程。这些比特可以称为“箱(bin)”。二值化是一种无损过程，并且可以包括以下编码技术中的一种或组合：固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码。例如，二值化可以包括使用8位固定长度二值化技术将语法元素的整数值5表示为00000101，或者使用一元编码二值化技术将整数值5表示为11110。如本文所使用的，术语固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码中的每一个可以指这些技术的一般实现和/或这些编码技术的更多具体实现。例如，可以根据视频编码标准例如ITU-T H.265具体地定义Golomb-Rice编码实现。熵编码过程还包括使用无损数据压缩算法对箱值(bin value)进行编码。在CABAC的示例中，对于特定的箱，可以从与箱相关联的一组可用上下文模型中选择上下文模型。在一些示例中，可以基于先前的箱和/或先前语法元素的值来选择上下文模型。上下文模型可以识别具有特定值的箱的概率。例如，上下文模型可以指示对0值箱进行编码的0.7概率以及对1值箱进行编码的0.3概率。应当注意，在一些情况下，对0值箱进行编码的概率和对1值箱进行编码的概率之和可以不为1。在选择可用的上下文模型之后，CABAC熵编码器可以基于所识别的上下文模型对箱进行算术编码。可以基于编码的箱的值来更新上下文模型。可以基于与上下文一起存储的关联变量——例如自适应窗口大小、使用上下文编码的箱的数量——来更新上下文模型。应当注意，根据ITU-T H.265，可以实现CABAC熵编码器，使得可以使用算术编码对一些语法元素进行熵编码，而无需使用明确分配的上下文模型，这种编码可以被称为旁路编码。

如上所述，帧内预测数据或帧间预测数据可以将图片的区域(例如，PB或CB)与对应的参考样本相关联。对于帧内预测编码，帧内预测模式可指定图片内的参考样本的位置。在ITU-T H.265中，定义的可能帧内预测模式包括平面(即表面拟合)预测模式(predMode：0)、DC(即平坦的整体平均)预测模式(predMode：1)和33个角度预测模式(predMode：2-34)。在JEM中，定义的可能的帧内预测模式包括平面预测模式(predMode：0)、DC预测模式(predMode：1)和65个角度预测模式(predMode：2-66)。应当注意，平面和DC预测模式可以被称为非方向性预测模式，并且角度预测模式可以被称为方向性预测模式。应当注意，无论定义的可能预测模式的数量如何，这里描述的技术通常都是适用的。

如上所述，根据ITU-T H.265定义的平面预测模式可以被描述为表面拟合。根据ITU-T H.265定义的平面预测模式包括平均两个线性预测。也就是说，在ITU-T H.265中，对于包括在CB中的每个样本，相应的预测被确定为两个线性预测的平均值。通过将位于相邻上一行中的重建样本值到最右侧位置处的CB(图15A中的T所示)的值内插到具有位于CB的相邻左列且具有与当前样本相同的竖直位置(即，定义为p[-1][y])的重建样本的当前样本值的位置来产生第一水平线性预测。通过将位于相邻左列中的重建样本值到最底侧位置处的CB(图15A中的L所示)的值内插到具有位于CB的相邻上一行且具有与当前样本相同的水平位置(即，定义为p[-1][y])的重建样本的当前样本值的位置来产生第二竖直线性预测。因此，参考图15A，根据ITU-T H.265定义的平面预测模式通常可以描述为(1)T与p[-1][y]的内插值和(2)L与p[x][-1]的内插值的平均。以下等式提供了ITU-T H.265中提供的平面预测模式的形式定义。

predSamples[x][y]＝((nTbS-1-x)*p[-1][y]+(x+1)*p[nTbS][-1]+(nTbS-1-y)*p[x][-1]+(y+1)*p[-1][nTbS]+nTbS)＞＞(Log2(nTbS)+1)

其中，

nTbS指定对应变换块的大小；

p[-1][y]是位于CB的相邻左列并且具有与当前样本相同的竖直位置的重建样本的样本值；

p[nTbS][-1]是T的样本值；

p[x][-1]是位于CB的相邻上一行并且具有与当前样本相同的水平位置的重建样本的样本值；

p[-1][nTbS]是L的样本值；

x＞＞y是对x的二进制补码整数表示的算术右移y个二进制数；以及

Log2(x)x的以2为底的对数。

图15B示出了对于当前样本C，p[-1][y]表示为b并且p[x][-1]表示为a的示例。

对于帧间预测编码，运动矢量(MV)识别除了要编码的视频块的图片之外的图片中的参考样本，从而利用视频中的时间冗余。例如，可以根据位于先前编码的帧中的参考块预测当前视频块，并且可以使用运动矢量来指示参考块的位置。运动矢量和相关数据可以描述例如运动矢量的水平分量、运动矢量的竖直分量、运动矢量的分辨率(例如，四分之一像素精度、一半像素精度、一个像素精度、双像素精度、四像素精度)、预测方向和/或参考图像索引值。此外，编码标准例如ITU-T H.265可以支持运动矢量预测。运动矢量预测使得能够使用相邻块的运动矢量来指定运动矢量。运动矢量预测的示例包括高级运动矢量预测(AMVP)、时间运动矢量预测(TMVP)、所谓的“合并”模式、以及“跳过”和“直接”运动推断。此外，JEM支持高级时间运动矢量预测(ATMVP)和空间-时间运动矢量预测(STMVP)。

如上所述，在JEM中，允许任意矩形CB的QTBT叶节点可以类似于ITU-T H.265中的PB和TB。因此，在某些情况下，JEM可能在可能的PB和TB结构方面提供的灵活性低于ITU-TH.265中提供的灵活性。如上面进一步描述的，在ITU-T H.265中，仅允许方形TB，并且对于帧内预测，仅允许方形PB。因此，ITU-T H.265中的一些过程是基于输入到过程的样本值阵列必须是正方形的假设来定义的，因此，ITU-T H.265中的一些过程可能无法为编码任意矩形视频块提供足够的支持。此外，JEM中定义的QTBT分块和相关信令可能不太理想。本公开描述用于使用任意矩形视频块执行视频编码的技术。

图7是说明可被配置为根据本公开的一种或多种技术对视频数据进行编码(即，编码和/或解码)的系统的示例的框图。系统100表示根据本公开的一种或多种技术可以使用任意矩形视频块执行视频编码的系统的示例。如图1所示，系统100包括源设备102、通信介质110和目的地设备120。在图1所示的示例中，源设备102可以包括被配置为对视频数据进行编码并将编码的视频数据发送到通信介质110的任何设备。目的地设备120可以包括被配置为经由通信介质110接收编码的视频数据且对编码的视频数据进行解码的任何设备。源设备102和/或目的地设备120可以包括配备用于有线和/或无线通信的计算设备，并且可以包括机顶盒、数字视频记录器、电视、台式机、膝上型或平板计算机、游戏控制台、包括例如“智能”电话、蜂窝电话在内的移动设备、个人游戏设备和医学想象设备。

通信介质110可以包括无线和有线通信介质和/或存储设备的任何组合。通信介质110可以包括同轴线缆、光纤线缆、双绞线、无线发射机和接收机、路由器、交换机、中继器、基站或可以有益于实现各种设备和站点之间的通信的任意其它设备。通信介质110可以包括一个或多个网络。例如，通信介质110可以包括被配置为使得能够访问万维网(例如，因特网)的网络。网络可以根据一个或多个电信协议的组合来操作。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合业务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球系统移动通信(GSM)。标准、码分多址(CDMA)标准、第三代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气和电子学会工程师(IEEE)标准。

存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂时性计算机可读介质。计算机可读介质可以包括光盘、闪存、磁存储器或任何其他合适的数字存储介质。在一些示例中，存储器设备或其的部分可以被描述为非易失性存储器，并且在其他示例中，存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存、或电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。存储设备可以包括存储卡(例如，安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。可以根据定义的文件格式将数据存储在存储设备上。

再次参考图1，源设备102包括视频源104、视频编码器106和接口108。视频源104可以包括被配置为捕获和/或存储视频数据的任何设备。例如，视频源104可以包括视频摄像机和可操作地耦合到其上的存储设备。视频编码器106可包括被配置为接收视频数据且产生表示视频数据的兼容比特流的任何设备。兼容比特流可以指视频解码器可以从其接收和再现视频数据的比特流。可以根据视频编码标准来定义兼容比特流的方面。当产生兼容比特流时，视频编码器106可以压缩视频数据。压缩可能是有损的(可识别的或不可识别的)或无损的。接口108可以包括被配置为接收兼容视频比特流，并且将兼容视频比特流发送和/或存储到通信介质的任何设备。接口108可以包括网络接口卡例如以太网卡，并且可以包括光学收发器、射频收发器或可发送和/或接收信息的任何其他类型的设备。此外，接口108可以包括可使兼容的视频比特流能够存储在存储设备上的计算机系统接口。例如，接口108可以包括支持***组件互连(PCI)和***组件互连快速(PCIe)总线协议、专有总线协议、通用串行总线(USB)协议、I²C的芯片组、或可用于互连对等设备的任何其他逻辑和物理结构。

再次参考图1，目的地设备120包括接口122、视频解码器124和显示器126。接口122可以包括被配置为从通信介质接收兼容视频比特流的任何设备。接口108可以包括网络接口卡例如以太网卡，并且可以包括光学收发器、射频收发器或可接收和/或发送信息的任何其他类型的设备。此外，接口122可以包括使得能够从存储设备取回兼容视频比特流的计算机系统接口。例如，接口122可以包括支持PCI和PCIe总线协议的芯片组、专有总线协议、USB协议、或者可用于互连对等设备的任何其他逻辑和物理结构。视频解码器124可以包括被配置为接收兼容比特流和/或其可接受变体且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备中的一种，例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或其他类型的显示器。显示器126可以包括高清显示器或超高清显示器。应当注意，尽管在图7所示的示例中，视频解码器124被描述为向显示器126输出数据，但是视频解码器124可以被配置为将视频数据输出到各种类型的设备和/或其子组件。举例来说，视频解码器124可被配置为将视频数据输出到任何通信媒体，如本文中所描述。

图8是示出可实施用于编码本文中所描述的视频数据的技术的视频编码器200的示例的框图。应当注意，尽管示例视频编码器200被示为具有不同的功能块，但是这样的说明是出于描述的目的，并且不将视频编码器200和/或其子组件限制到特定的硬件或软件架构。可以使用硬件、固件和/或软件实现的任何组合来实现视频编码器200的功能。在一个示例中，视频编码器200可被配置为根据本文中所描述的技术对视频数据进行编码。视频编码器200可执行图片区域的帧内预测编码和帧间预测编码，且因此可称为混合视频编码器。在图8所示的示例中，视频编码器200接收源视频块。在一些示例中，源视频块可以包括已经根据编码结构划分的图片区域。例如，源视频数据可以包括宏块、CTU、CB、其子分区和/或其他等效编码单元。在一些示例中，视频编码器200可被配置为执行源视频块的额外子分区。应当注意，这里描述的一些技术通常可以适用于视频编码，而不管在编码之前和/或期间如何划分源视频数据。在图8所示的示例中，视频编码器200包括求和器202、变换系数发生器204、系数量化单元206、逆量化/变换处理单元208、求和器210、帧内预测处理单元212、帧间预测处理单元214、后滤波器单元216和熵编码单元218。

如图8中所示，视频编码器200接收源视频块并输出比特流。如上所述，JEM包括用于QTBT树的信令的以下参数：CTU大小、MinQTSize、MaxBTSize、MaxBTDepth和MinBTSize。表2示出了针对不同CTU大小的各种QT深度处的QT叶节点的块大小(在该示例中、MinQTSize是8)。此外，表3示出了针对二叉树根节点大小(即，叶四叉树节点大小)在各种BT深度处的BT叶节点的允许块大小。

表2

表3

因此，参考表2，可以基于CTU大小和QT深度来确定形成二叉树的根的四叉树节点大小。如果将四叉树进一步分块为二叉树，则可以基于QT节点大小和BT深度来确定二叉树叶节点大小，如表3所示。MaxBTSize、MaxBTDepth和MinBTSize中的每一个可用于确定最小允许二叉树叶节点大小。例如，如果CTU大小为128×128，QT深度为3，MaxBTSize为16×16，MaxBTDepth为2，则最小允许二叉树叶节点大小包括64个样本(即8×8、16×4或4×16)。在这种情况下，如果MaxBTDepth为1，则最小允许二叉树叶节点大小包括128个样本(即，16×8或8×16)。表4示出了对于CTU大小为128×128的QT深度和BT深度的各种组合下BT叶节点的块大小。

表4

如上所述，JEM中定义的QTBT划分和相关信令可能不太理想。例如，如上面参考图3所述，在JEM中，当独立QTBT用于对CTU进行分块时，亮度分量的CB不需要并且不必与色度分量的CB对齐。也就是说，在JEM中，当独立QTBT用于对CTU进行分块时，使用单独的QT***标志和BT***模式语法元素的组来发信号通知亮度分量和色度分量分块中的每一个，这样的信令可能不太理想。

在一些示例中，根据本文中所描述的技术，视频编码器200可被配置为对CTU进行分块，使得亮度和色度分量具有达到特定深度的共同分块结构，且因此共享共同的一组的QT***标志和BT***模式语法元素直到特定深度。应当注意，在这种情况下，深度可以对应于QTBT的绝对深度(即，由QT深度和BT深度之和所形成的深度)。应当注意，在一些情况下，深度可以对应于块中的分量(例如，亮度和/或色度)的多个样本，并且可选地可以根据最小宽度和/或最小高度来指示。例如，可以共享QTBT，直到将色度样本的阵列分块为特定大小。例如，可以共享QTBT，直到节点的高度或宽度中的一个小于分量的指定数量的样本，例如8个样本。例如，可以共享QTBT，直到节点的分量(例如，亮度和/或色度)的样本数小于指定数量，例如64。在一个示例中，可以为一组CTU预先确定深度。例如，对于视频数据切片，深度可以设置为2，或者例如对于视频数据的图片，深度可以设置为2。在一个示例中，可以使用语法元素(例如，shared_depth等)来发信号通知深度。在一个示例中，可以在CTU水平发信号通知共享深度语法元素。在一个示例中，可在切片水平发信号通知共享深度语法元素。在一个示例中，可以在参数集水平(例如，图片参数集(PPS)或序列参数集(SPS))处发信号通知共享深度语法元素。在一个示例中，可以使用较高水平标志来指示在较低水平处的共享深度语法元素的存在。举例来说，在切片水平包括的语法元素可指示对于在切片中包括的每个CTU是否包括共享深度语法元素。应当注意，以类似的方式，CTU水平标志可用于指示共享QTBT、部分共享QTBT或用于亮度和色度分量的独立QTBT中的一个或多个。

在一个示例中，共享深度语法元素可以是在***水平处的标志。例如，对于每个QT***标志和/或BT***模式，相应的标志可以指示所指示的***是否被共享。在一个示例中，可使用高水平的共享深度语法元素来设定共享深度，并且可使用较低水平标志来指示超出由语法元素指定的水平的共享。例如，可以在切片水平将共享深度设置为1的深度，并且切片内的每个CTU可以包括指示特定CTU共享是否被扩展超过1的深度到2的深度的标志。

图9和图10是示出亮度和色度分量具有共享深度的公共分块的示例的概念图。在图9所示的示例中，亮度分量另外被分块超过共享深度1，并且色度分量未被分块超过深度1。在图10所示的示例中，亮度分量和色度分量都被独立地分块为超过共享深度1。如上所述，视频采样格式可以相对于CU中包括的亮度样本的数量来定义CU中包括的色度样本的数量。在一个示例中，视频编码器200可被配置为基于采样格式来选择性划分超过共享深度的色度分量。例如，在根据4:2:0样本格式来格式化CTU的情况下，在一个示例中，视频编码器200可以被配置为使得色度分量可以不被进一步分块超过共享深度。此外，在根据4:4:4样本格式对CTU进行格式化的情况下，在一个示例中，视频编码器200可以被配置为使得色度分量可以进一步被分块超过共享深度。此外，作为采样格式的附加或备选，可以是以下一种或多种：CTU大小、MinQTSize、MaxBTSize、MaxBTDepth和/或MinBTSize可用于确定色度分量允许被分块超过共享深度。

图11是示出与图10中所示的示例QTBT分块对应的QTBT的示例的概念图。如图11所示，用于亮度的QTBT和用于色度的QTBT在深度1之前是相同的，即，共享深度是1。此外，应该注意，出于解释的目的，图11中所示的亮度树与图2中所示的QTBT相同。这样，对于图11中所示的示例，视频编码器200可被配置为基于表1中提供的伪语法来发信号通知亮度QTBT。在一个示例中，视频编码器200可被配置为基于表5中提供的伪语法将发信号通知超出共享QTBT的色度QTBT。

表5

在表5所示的示例中，添加分块条件可以包括基于以下中的一个或多个的条件：采样格式、CTU大小、MinQTSize、MaxBTSize、MaxBTDepth和/或MinBTSize，如上所述。应注意，在一个示例中，视频编码器200可被配置为通过复用表1和表5中所说明的语法元素来发信号通知超过共享QTBT色度的QTBT。例如，可以在超过共享节点的亮度分量节点的语法元素和作为共享节点的后代的语法元素之后，发信号通知用于超过共享节点的色度分量节点的语法元素和作为共享节点的后代的语法元素。表6示出了伪语法的示例，其中在语法元素将共享节点终止为用于亮度分量的叶节点之后，发信号通知用于色度分量的语法元素。在一个示例中，可在亮度语法元素之前发信号通知色度语法元素。

表6

以此方式，视频编码器200表示被配置为：接收视频块的设备的示例，所述视频块包括视频数据的第一分量和视频数据的第二分量的样本值；根据第一四叉树二叉树分块结构来对视频数据进行分块的第一分量的样本值；并且根据第一四叉树二叉树分块结构将视频数据的第二分量的样本值分块为共享深度。

如上所述，ITU-T H.265支持用于帧间预测的四个非对称PB分块。应当注意，ITU-TH.265中提供的非对称PB分块可能不太理想。也就是说，ITU-T H.265中提供的非对称PB分块限于使得具有方形CB的宽度或高度的四分之一的PB。例如，对于ITU-T H.265中的32×32CB，M/4×M左分区将CB分成8×32PB和24×32PB。ITU-T H.265没有提供基于任意偏移将CB分块为PB的机制。也就是说，不允许PB具有任意宽度或高度。在某些情况下，根据任意偏移对CTB进行分块可能很有用。例如，在上面的示例中，对于32×32CB，在某些情况下，基于图像的属性，将CB分块为10×32PB和22×32PB可能是有用的。此外，参考上面的表3，在一些情况下，根据任意偏移进一步划分二叉叶节点可能是有用的。也就是说，在JEM中，潜在的叶节点大小限于表3中所示的那些。例如，在二叉叶节点是32×128的情况下，将二叉叶节点进一步分块为32×28CB和32×100CB可能是有用的。应当注意，根据本文描述的技术根据任意偏移对视频数据块进行分块可以至少应用于以下一种或多种情况：(1)在CU(或CB)形成PU(或PB)的根的情况下，可以将任意偏移分块应用于将CTU(或CTB)分块为CU(或CB)；(2)在CU(或CB)不形成PU(或PB)的根的情况下，即，在CB水平确定预测的情况下，可以将任意偏移分块应用于将CTU(或CTB)分块为CU(或CB)；(3)任意偏移分块可以应用于PU(或PB)的分块；以及(4)可以将任意偏移分块应用于对与编码树的节点对应的样本块进行分块。应当注意，在一些情况下，可以选择性地启用任意偏移分块以用于CTU分块和/或PU分块。

图12示出了根据偏移进一步水平地对二叉叶节点进行分块的示例。应当注意，尽管图12中所示的示例包括根据任意偏移分块来对二叉叶节点进行分块，但是这样的示例不应被解释为限制并且如本文所述，任意偏移分块可适用于其中视频数据已分块的各种场景。在图12所示的示例中，CTB可以对应于大小为256×256的亮度CTB。在这种情况下，右上角的二叉叶节点的大小为32×128。如上所述，将32×128二叉叶节点进一步分块为32x28CB和32x100 CB可能是有用的。在图12所示的示例分块中，偏移的值为28。在一个示例中，视频编码器200可被配置为根据偏移来对QTBT的叶节点进行分块。在一个示例中，视频编码器200可被配置为使得可以允许任何数目的不对称偏移分块结构。也就是说，在一些示例中，对于竖直偏移，偏移可以在2到块高度减去2的范围内，并且对于水平偏移，偏移可以在2到块宽度减去2的范围内。在一些示例中，对于竖直偏移，偏移可以在1到块高度减去1的范围内，并且对于水平偏移，偏移可以在1到块宽度减去1的范围内。在一些示例中，可以基于与CTU和/或预测模式相关联的属性来限制允许的不对称偏移分块。例如，可以基于是根据帧内预测还是帧间预测来对CU进行编码来限制非对称偏移分块。此外，在一些示例中，可以基于CU或CB的大小来限制非对称偏移分块。在一个示例中，偏移的值可以被限制为设置的整数倍。在一个示例中，偏移的值可以被限制为没置的整数倍和一些附加的整数值(例如，2)。在一些示例中，整数倍的集合可以基于正应用偏移的叶节点的大小。例如，关于如上所述水平地对32×128叶节点进行分块的情况。在一个示例中，偏移的值可以被限制为4的倍数(即，允许的偏移值包括4、8、12、16、......、120、124)。在一个示例中，可以使用索引的一组偏移值来指定偏移的值。例如，关于如上所述水平地对32×128叶节点进行分块的情况，在一个示例中，偏移的值可以限于下面的一组偏移值28、42、84和100。在一些示例中，可以选择索引的一组偏移值合，以便避免可以使用QTBT信令或其近似变化所发信号通知的分区。例如，在水平地对于32×128叶节点进行分块的情况下，在某些情况下(例如，取决于MaxBTDepth的值)，BT结构可以允许32×128叶节点被分成两个32x64分块。在这种情况下，可以选择索引的一组偏移值，使得偏移不在64的指定范围内。此外，在一些示例中，索引的一组偏移值可以基于MaxBTDepth的值。

应当注意，在一些示例中，允许的不对称偏移分块可以包括水平或竖直分块。例如，在一个示例中，关于32×128二叉叶，视频编码器200可以被配置为进一步将32×128二叉叶节点分块为8×128CB和24×128CB。以这种方式，偏移可以指示相对于锚点的偏移值。例如，锚点可以包括用于竖直分块的左边缘和用于水平分块的顶边缘。应注意，在一些示例中，锚可以是来自边缘的设定数量的样本。例如，锚可以设置为来自边缘的4个样本。以这种方式，偏移值为零将指示来自边缘的分块4样本。在一个示例中，偏移可以包括固定长度二值化。在一个示例中，偏移可以包括截断的一元二值化。

如上所述，在一个示例中，可以使用索引的一组偏移值来指定偏移的值。在一个示例中，索引的一组偏移值可以对应于分数分块。表7和表8提供了与分数分块对应的索引的一组偏移值的示例。关于表7和表8，应当注意，在一些示例中，分数分块可以舍入到最接近的样本值。例如，关于如上所述水平地度32×128叶节点进行分块的情况，在一个示例中，距边缘值1/3的偏移可以舍入到43。关于表7和表8，应当注意，在示例中，可以将分数分块舍入到最接近的整数倍样本值。例如，关于如上所述水平地对32×128叶节点进行分块的情况，在一个示例中，距边缘值1/3的偏移可以舍入到44，这是最接近的4个样本倍数。关于表7和表8，应当注意，在示例中，可以将分数分块向下舍入到最接近的整数倍样本值。例如，关于如上所述水平地对32×128叶节点进行分块的情况，在一个示例中，距边缘值1/3的偏移可以舍入到40，这是最接近的4个样本倍数。

距边缘的偏移	偏移的二进制表示
		正在考虑的块大小的1/4	01
正在考虑的块大小的1/2	1
		正在考虑的块大小的3/4	00

表7

距边缘的偏移	偏移的二进制表示
		正在考虑的块大小的1/3	01
正在考虑的块大小的1/2	1
		正在考虑的块大小的2/3	00

表8

如上所述，视频编码器200可被配置为发信号通知QTBT。在一个示例中，视频编码器200可被配置为通过在QTBT的信令内并入偏移信令来指示偏移值。例如，图12中所示的示例包括与图1中所示的示例相同的QTBT结构。这样，偏移信令可以基于表1中示出的示例伪语法，其中，在一个示例中，在指示叶节点的语法之后包括偏移信令。表9示出了对应于以下情况的示例伪语法，其中对于256×256CTB，右上角的具有32×128的大小的二叉叶节点被进一步分块为32×28CB和32×100CB。

表9

因此，根据表9中所示的示例，视频编码器200可被配置为：发信号通知指示偏移分块应用于QTBT叶节点的标志，发信号通知指示偏移分块是竖直分块还是水平分块的信号；并且发信号通知指示偏移值的值。应注意，在其它示例中，视频编码器200可被配置为使用其他信令技术来指示偏移值。举例来说，视频编码器200可被配置为发信号通知CB水平的偏移值。应当注意，在一些示例中，可以将偏移发信号通知为当前BT***模式信令的扩展。也就是说，例如，在JEM中，BT***模式语法元素导致节点减半。在一个示例中，根据本文描述的技术，BT***模式信令可以包括用信号通知***类型和偏移对。例如，参考图12所示的示例，在一个示例中，可以如下发信号通知偏移：(BT split＝2，Offset value＝28)。

此外，在一个示例中，可以根据定义的扫描次序来索引CTB的每个CB，并且视频编码器200可以被配置为通过发信号通知CB的索引值来发信号通知偏移值。例如，参考图13，右上角的二叉叶节点被示为索引为CB₈。因此，在一个示例中，视频编码器200可被配置为使用此索引值来指示对此叶节点执行偏移分块。以此方式，视频编码器200表示被配置为确定偏移值且根据偏移值分块叶节点的设备的示例。

在一个示例中，可以将预定次序的一组***决策(任意偏移分块和/或QT分块)应用于样本块，并使用单个指示符在比特流中指示。

再次参考图8，视频编码器200可通过从源视频块中减去预测性视频块来产生残差数据。求和器202表示被配置为执行该减法操作的组件。在一个示例中，视频块的减法发生在像素域中。变换系数发生器204将诸如离散余弦变换(DCT)、离散正弦变换(DST)或概念上类似的变换的变换应用于其残差块或子分区(例如，四个8×8变换可以应用于16×16的残差值阵列)以产生一组残差变换系数。变换系数发生器204可以被配置为执行离散三角变换族中包括的变换的任何一个和所有组合。如上所述，在ITU-T H.265中，TB被限制为以下大小4×4、8×8、16×16和32×32。在一个示例中，变换系数发生器204可以被配置为根据具有4×4、8×8、16×16和32×32大小的阵列来执行变换。在一个示例中，变换系数发生器204还可以被配置为根据具有其他维度的阵列来执行变换。特别地，在某些情况下，对差值的矩形阵列执行变换可以是有用的。在一个示例中，变换系数发生器204可以被配置为根据以下大小的阵列执行变换：2×2、2×4N、4M×2和/或4M×4N。在一个示例中，2维(2D)M×N逆变换可以被实现为1维(1D)M点逆变换，之后是1D N点逆变换。在一个示例中，2D逆变换可以实现为1D N点竖直变换，之后是1D N点水平变换。在一个示例中，2D逆变换可以实现为1D N点水平变换，之后是1D N点竖直变换。变换系数发生器204可将变换系数输出到系数量化单元206。

系数量化单元206可以被配置为执行变换系数的量化。如上所述，可以通过调整量化参数来修改量化程度。系数量化单元206还可以被配置为确定量化参数和输出QP数据(例如，用于确定量化组大小和/或ΔQP值的数据)，其可以由视频解码器来重建量化参数以执行视频解码期间的逆量化。应当注意，在其他示例中，可以使用一个或多个附加或替代参数来确定量化水平(例如，比例因子)。本文描述的技术通常可应用于基于与视频数据的另一分量对应的变换系数的量化水平来确定与视频数据的分量对应的变换系数的量化水平。

如图8所示，量化的变换系数被输出到逆量化/变换处理单元208。逆量化/变换处理单元208可以被配置为应用逆量化和逆变换以产生重建的残差数据。如图8所示，在求和器210，可以将重建的残差数据添加到预测性视频块。以此方式，可以重建经编码的视频块，并且可以使用所得到的重建视频块来评估给定预测、变换和/或量化的编码质量。视频编码器200可被配置为执行多个编码通道(例如，在改变预测、变换参数和量化参数中的一个或多个时执行编码)。可以基于对重建视频块的评估来优化比特流的率失真或其他系统参数。此外，可以存储重建的视频块并将其用作用于预测后续块的参考。

如上所述，可以使用帧内预测来对视频块进行编码。帧内预测处理单元212可以被配置为：为要编码的视频块选择帧内预测模式。帧内预测处理单元212可被配置为：评估帧和/或其区域，并且确定用以对于当前块进行编码的帧内预测模式。如图8所示，帧内预测处理单元212将帧内预测数据(例如，语法元素)输出到熵编码单元218和变换系数发生器204。如上所述，对残差数据执行的变换可以是模式相关的。如上所述，可能的帧内预测模式可以包括平面预测模式、DC预测模式和角度预测模式。此外，在一些示例中，可针对亮度预测模式根据帧内预测推断对色度分量的预测。

如上所述，ITU-T H.265提供了平面预测模式的形式定义，其基于变量nTbS，该变量nTbS指定对应的变换块的大小。如上进一步所述，在ITU-T H.265中，TB被限制为以下大小4×4、8×8、16×16和32×32。因此，nTbS可以具有值4、8、16或32以指示正方形的大小，并且因此不能指示任意大小的矩形。因此，根据ITU-T H.265所定义的平面预测模式可能对于相对于任意大小的矩形执行平面预测来说不太理想。根据本文描述的技术，视频编码器200可被配置为相对于任意大小的矩形CB执行平面预测。

在一个示例中，视频编码器200可被配置为通过对水平内插和竖直预测求平均来相对于任意大小的矩形CB执行平面预测。这种平面预测一般可以如下描述：

predSamples[x][y]＝(Hor_Interpolation[x][y]+Ver_Interpolation[x][y]+1)/2

在一个示例中，Hor_Interpolation[x][y]和Ver_Interpolation[x][y]可以根据以下等式分别基于CB的宽度和高度：

Hor_Interpolation[x][y]＝((nCbSW-1-x)*p[-1][y]+(x+1)*p[nCbSW][-1])/nCbSW

以及

Ver_Interpolation[x][y]＝((nCbSH-1-y)*p[x][-1]+(y+1)*p[-1][nCbSH])/nCbSH

其可以表示为：

predSamples[x][y]＝(((nCbSW-1-x)*p[-1][y]+(x+1)*p[nCbSW][-1])*nCbSH+((nCbSH-1-y)*p[x][-1]+(y+1)*p[-1][nCbSH])*nCbSW+nCbSW*nCbSH)/(2*nCbSW*nCbSH)

其中，

nCbSW指定对应编码块的宽度；

nCbSH指定对应编码块的高度；

p[-1][y]是位于CB的相邻左列并且具有与当前样本相同的竖直位置的重建样本的样本值；

P[nCbSW][-1]是T的样本值；

p[x][-1]是位于CB的相邻上一行并且具有与当前样本相同的水平位置的重建样本的样本值；

p[-1][CTbSH]是L的样本值；以及

/是整数除法运算，结果被截断为零。

关于上面的示例等式，应当注意，尽管关于CB描述了等式，但是在其他示例中，可以基于PB、TB和/或其他编码结构或图片区域来描述等式。

关于上面的示例等式，应当注意，在一些情况下，编码块可以对应于变换块，并且在其他情况下，编码块和变换块结构可以是独立的。图16A示出了根据上面的等式的T和L相对于示例矩形CB的位置。图16B示出了对于当前样本，C、p[-1][y]表示为b并且p[x][-1]表示为a的示例。应当注意，根据上面的等式，在nCbSW大于nCbSH的情况下，与b相比，应用相对较高的权重，以及在nCbSH大于nCbSW的情况下，与b相比，应用相对较高的权重。因此，视频编码器200可被配置为以考虑矩形样本值阵列的方向的方式执行平面预测。应当注意，在一些示例中，加权平均可以应用于水平内插和竖直内插。例如，这种平面预测可以大体描述如下：

predSamples[x][y]＝(α*Hor_Interpolation[x][y]+β*Ver_Interpolation[x][y]+(α+β)/2)/(α+β)，

其中α和β取决于nCbSH和/或nCbSW。此外，α和β相关可以取决于PB、TB和/或其他示例中的其他编码结构或图片区域。

帧间预测处理单元214可以被配置为对当前视频块执行帧间预测编码。帧间预测处理单元214可被配置为接收源视频块并计算视频块的PU的运动矢量。运动矢量可以指示当前视频帧内的视频块的PU(或类似编码结构)相对于参考帧内的预测性块的位移。帧间预测编码可以使用一个或多个参考图片。此外，运动预测可以是单预测(使用一个运动矢量)或双预测(使用两个运动矢量)。帧间预测处理单元214可以被配置为通过计算由例如绝对差之和(SAD)、平方差之和(SSD)或其他差度量所确定的像素差来选择预测性块。如上所述，可以根据运动矢量预测来确定和指定运动矢量。帧间预测处理单元214可以被配置为执行运动矢量预测，如上所述。帧间预测处理单元214可以被配置为使用运动预测数据产生预测性块。举例来说，帧间预测处理单元214可将预测性视频块定位于帧缓冲器(图8中未示出)内。应注意，帧间预测处理单元214可进一步被配置为将一个或多个内插滤波器应用于经重建的残差块以计算用于运动估计的子整数像素值。帧间预测处理单元214可将针对所计算的运动矢量的运动预测数据输出到熵编码单元218。如图8中所示，帧间预测处理单元214可以经由后置滤波器单元216接收重建的视频块。后置滤波器单元216可以被配置为执行去块(deblock)和/或采样自适应偏移(SAO)滤波。去块指的是平滑重建的视频块的边界的过程(例如，使得边界对于观看者来说不易察觉)。SAO滤波是非线性幅度映射，其可用于通过向重建的视频数据添加偏移来改善重建。

再次参考图8，熵编码单元218接收量化的变换系数和预测性语法数据(即，帧内预测数据、运动预测数据、QP数据等)。应注意，在一些示例中，系数量化单元206可在将系数输出到熵编码单元218之前执行对包括经量化变换系数在内的矩阵的扫描。在其他示例中，熵编码单元218可以执行扫描。熵编码单元218可以被配置为根据本文描述的一种或多种技术执行熵编码。熵编码单元218可以被配置为输出兼容比特流，即视频解码器可以从其接收和再现视频数据的比特流。

图14是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行解码的视频解码器的示例的框图。在一个示例中，视频解码器300可被配置为基于上文所描述的技术中的一个或多个来重建视频数据。也就是说，视频解码器300可以以与上述视频编码器200相反的方式操作。视频解码器300可被配置为执行帧内预测解码和帧间预测解码，且因此可称为混合解码器。在图14所示的示例中，视频解码器300包括熵解码单元302、逆量化单元304、逆变换处理单元306、帧内预测处理单元308、帧间预测处理单元310、求和器312、后置滤波器单元314以及参考缓冲器316。视频解码器300可被配置为以与视频编码系统一致的方式解码视频数据，所述视频编码系统可以实现视频编码标准的一个或多个方面。应当注意，尽管示例视频解码器300被示为具有不同的功能块，但是这样的说明是出于描述的目的，并且不将视频解码器300和/或其子组件限制到特定的硬件或软件架构。可以使用硬件、固件和/或软件实现的任何组合来实现视频解码器300的功能。

如图14所示，熵解码单元302接收熵编码的比特流。熵解码单元302可被配置为根据与熵编码过程互逆的过程来根据比特流解码经量化语法元素和经量化系数。熵解码单元302可被配置为根据上文所描述的任何熵编码技术执行熵解码。熵解码单元302可以以与视频编码标准一致的方式解析经编码比特流。视频解码器300可被配置为解析经编码比特流，其中基于上述技术来产生经编码比特流。也就是说，例如，视频解码器300可以被配置为基于上面描述的用于重建视频数据的一种或多种技术来确定产生和/或发信号通知的QTBT分块结构。举例来说，视频解码器300可被配置为解析语法元素和/或评估视频数据的属性以便确定QTBT的共享深度。此外，视频解码器300可被配置为确定偏移值且根据偏移值对视频数据块进行分块。

再次参考图14，逆量化单元304从熵解码单元302接收量化的变换系数(即，水平值)和量化参数数据。量化参数数据可以包括上面描述的ΔQP值和/或量化组大小值等的任何一个和所有组合。视频解码器300和/或逆量化单元304可被配置为基于由视频编码器发信号通知的值和/或通过视频属性和/或编码参数来确定用于逆量化的QP值。也就是说，逆量化单元304可以以往复方式操作到上述系数量化单元206。举例来说，逆量化单元304可被配置为根据上文所描述的技术来推断预定值(例如，基于编码参数确定QT深度和BT深度之和)、允许的量化组大小等。逆量化单元304可以被配置为应用逆量化。逆变换处理单元306可以被配置为执行逆变换以产生重建的残差数据。由逆量化单元304和逆变换处理单元306分别执行的技术可以类似于由上述逆量化/变换处理单元208执行的技术。逆变换处理单元306可被配置为将逆DCT、逆DST、逆整数变换、不可分离二次变换(NSST)或概念上类似的逆变换过程应用于变换系数，以便产生像素域中的残差块。此外，如上所述，是否执行特定变换(或特定变换的类型)可以取决于帧内预测模式。如图14所示，可以将重建的残差数据提供给求和器312。求和器312可以将重建的残差数据添加到预测性视频块并产生重建的视频数据。可以根据预测视频技术(即，帧内预测和帧间预测)来确定预测性视频块。在一个示例中，视频解码器300和后置滤波器单元314可被配置为确定QP值且将其用于后置滤波(例如，去块)。在一个示例中，利用QP的视频解码器300的其它功能块可基于所接收的信令确定QP并将其用于解码。

帧内预测处理单元308可被配置为：接收帧内预测语法元素，并从参考缓冲器316取回预测性视频块。参考缓冲器316可以包括被配置为存储一帧或多帧视频数据的存储器设备。帧内预测语法元素可识别帧内预测模式，例如上文所描述的帧内预测模式。在一个示例中，帧内预测处理单元308可使用根据本文中所描述的帧内预测编码技术中的一个或多个来重建视频块。帧间预测处理单元310可接收帧间预测语法元素，并且产生运动矢量以识别存储在参考缓冲器316中的一个或多个参考帧中的预测块。帧间预测处理单元310可产生运动补偿块，从而可基于内插滤波器执行内插。用于具有子像素精度的运动估计的插值滤波器的标识符可以包括在语法元素中。帧间预测处理单元310可使用内插滤波器来计算参考块的子整数像素的内插值。后置滤波器单元314可以被配置为对重建的视频数据执行滤波。举例来说，后置滤波器单元314可被配置为执行去块和/或SAO滤波，如上文关于后置滤波器单元216所描述。此外，应当注意，在一些示例中，后置滤波器单元314可以被配置为执行专有自由选择滤波器(例如，视觉增强)。如图14中所示，重建视频块可以由视频解码器300输出。以此方式，视频解码器300可被配置为根据本文中所描述的一种或多种技术产生经重建视频数据。以这种方式，视频解码器300可以被配置为：解析第一四叉树二叉树分块结构，将第一四叉树二叉树分块结构应用于视频数据的第一分量，确定共享深度，并且将第一四叉树二叉树分块结构应用于视频数据的第二分量直到共享深度。以此方式，视频解码器300表示被配置为确定偏移值且根据偏移值对叶节点进行分块的设备的示例。

在一个或多个示例中，所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实现，那么所述功能可作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质传输且由基于硬件的处理单元执行。计算机可读介质可以包括对应于诸如数据存储介质的有形介质的计算机可读存储介质、或者包括有助于将计算机程序从一个地方传送到另一个地方的任何介质的通信介质，例如，根据通信协议。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质或(2)诸如信号或载波的通信介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问的任何可用介质，以取回用于实现本公开中描述的技术的指令、代码和/或数据结构。计算机程序产品可包括计算机可读介质。

作为示例而非限制，这种计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、闪存或可用于以指令或数据结构的形式存储所需的程序代码且可由计算机访问的任何其他介质。此外，可以将任意连接适当地命名为计算机可读介质。例如，如果使用同轴电缆、光缆、双绞线、数字用户线(DSL)或无线技术(例如红外线、无线电和微波)从网站、服务器或其他远程源发送指令，则同轴电缆、光缆、双绞线、DSL或无线技术(例如红外线、无线电和微波)包括在介质的定义中。然而，应该理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质，而是针对非暂时性有形存储介质。如本文中所使用的磁盘和光盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中，磁盘通常以磁的方式再现数据，而光盘用激光以光的方式再现数据。以上项的组合也应当包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行，例如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或离散逻辑电路。因此，这里使用的术语“处理器”可以指任何前述结构或适合于实现本文所述技术的任何其他结构。另外，在一些方面，可以在配置用于编码和解码的专用硬件和/或软件模块内提供本文描述的功能，或者将其并入组合的编解码器中。而且，这些技术可以在一个或多个电路或逻辑元件中完全实现。

本公开的技术可在各种装置或设备中实施，包括无线手持机、集成电路(IC)或一组IC(例如，芯片组)。在本公开中描述了各种组件，模块或单元以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同的硬件单元实现。而是，如上所述，各种单元可以组合在编解码器硬件单元中，或者由一组互操作硬件单元提供，包括如上所述的一个或多个处理器以及合适的软件和/或固件。

此外，在上述每个实施例中使用的基站设备和终端设备的每个功能块或各种特征可以由电路来实现或执行，该电路通常是一个集成电路或多个集成电路。设计为执行本说明书中描述的功能的电路可以包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑或分立硬件组件或其组合。通用处理器可以是微处理器，或者备选地，处理器可以是常规处理器、控制器、微控制器或状态机。上述通用处理器或每个电路可以由数字电路配置或者可以由模拟电路配置。此外，当由于半导体技术的进步而出现制成取代当前集成电路的集成电路的技术时，还能够使用通过该技术的集成电路。

已经描述了各种示例。这些示例和其它示例在所附权利要求的范围内。

<交叉引用>

该非临时申请在35U.S.C.§119下要求对2017年1月31日的临时申请No.62/452879的优先权，其全部内容通过引用合并于此。

43页详细技术资料下载

用于执行平面帧内预测视频编码的系统和方法

相关技术

网友询问留言