用于具有降低的译码复杂性的视频译码的广义双预测

文档序号：991725 发布日期：2020-10-20 浏览：3次 >En<

阅读说明：本技术 用于具有降低的译码复杂性的视频译码的广义双预测 (Generalized bi-prediction for video coding with reduced coding complexity ) 是由张焱修晓宇贺玉文叶艳于 2019-01-23 设计创作，主要内容包括：示例性实施例包括用于对包括多个图片的视频进行译码的系统和方法,所述多个图片包括当前图片、第一参考图片和第二参考图片,其中每个图片包括多个块。在一种方法中,对于所述当前图片中的至少当前块,至少部分基于所述当前图片的时间层和/或量化参数,确定可用双预测权重的数目。从可用双预测权重中识别一对权重。使用所识别的权重,所述当前块接着被预测为所述第一参考图片中的第一参考块和所述第二参考图片中的第二参考块的加权和。还描述用于有效搜索和选择一对双预测权重以用于块的预测的编码技术。(Example embodiments include systems and methods for coding video comprising a plurality of pictures including a current picture, a first reference picture, and a second reference picture, wherein each picture comprises a plurality of blocks. In one method, for at least a current block in the current picture, a number of available bi-prediction weights is determined based at least in part on a temporal layer and/or a quantization parameter of the current picture. A pair of weights is identified from the available bi-predictive weights. Using the identified weights, the current block is then predicted as a weighted sum of a first reference block in the first reference picture and a second reference block in the second reference picture. Encoding techniques for efficiently searching and selecting a pair of bi-prediction weights for prediction of a block are also described.)

相关申请的交叉引用

本申请是以下申请的非临时申请并根据35U.S.C.§119(e)要求以下申请的权益：2018年1月24日递交的题为“GENERALIZED BI-PREDICTION FOR VIDEO CODING WITHREDUCED CODING COMPLEXITY(用于具有降低的译码复杂性的视频译码的广义双预测)”的美国临时专利申请序列号62/621,524，该申请的全部内容通过引用而被整体并入本文。

背景技术

视频译码系统广泛用于压缩数字视频信号以减少这种信号的存储需要和/或传输带宽。在各种类型的视频译码系统中，例如基于块的系统、基于小波的系统和基于对象的系统，现今基于块的混合视频译码系统被最广泛地使用和部署。基于块的视频译码系统的示例包括多个国际视频译码标准，诸如MPEG-1/2/4部分2、H.264/MPEG-4部分10AVC、VC-1和被称为高效视频译码(HEVC)的最新视频译码标准，其由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频译码联合协作团队)开发。

发明内容

示例性实施例包括在视频编码和解码(统称为“译码”)中使用的方法。一种对包括多个图片的视频进行译码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，其中每一图片包括多个块。在一种方法中，对于所述当前图片中的至少一当前块，至少部分基于所述当前图片的例如时间层和/或量化参数等质量度量来确定可用双预测权重的数目。从所述确定数目的可用双预测权重中识别一对权重(第一权重和第二权重)。然后，所述当前块被预测为所述第一参考图片中的第一参考块和所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权，而所述第二参考块由所述第二权重加权。可在所述编码器和解码器侧两者上执行相同预测，且所述编码器可在比特流中用信号发送预测残差。

在一些实施例中，可用双预测权重的所述数目在所述比特流中被用信号发送。

在一些实施例中，在所述比特流中用信号发送标识一对双预测权重的信息，且如果所述对中的所述权重中的一者大于另一者，那么将较大权重与较高质量参考图片一起使用。在这样的实施例中，不必在所述比特流中用信号发送所述对中的哪个权重与哪个参考图片相关联，因为该信息可以从所述参考图片的比较质量推断。在一些实施例中，所述较高质量参考图片可以是在时间上更接近所述当前图片的参考图片。在一些实施例中，所述较高质量参考图片可以是具有较低量化参数的参考图片。

在一些实施例中，可用双预测权重的所述数目至少部分取决于参考块之间的相似性，其中参考块之间的相似性级别越高，可用双预测权重的所述数目越低。

在附加示例性实施例中，描述用于选择适当双预测权重以用于编码视频块而不必搜索所有可用双预测权重的技术。

另外的实施例提供了编码器和解码器，其包括处理器和存储指令的非暂时性计算机可读介质，所述指令可操作以执行本文描述的编码和解码操作。附加实施例包括一种存储使用本文描述的方法生成的比特流的非暂时性计算机可读存储介质。

附图说明

图1是基于块的视频编码器的功能框图。

图2是视频解码器的功能框图。

图3是用于局部照度补偿的模板T_c及其预测块T₀和T₁的示例的示意图。

图4是根据一些实施例的视频编码器的功能框图。

图5是用于例如图4的编码器的示例性视频编码器中的示例性广义双预测模块的功能框图。

图6是根据一些实施例的视频解码器的功能框图。

图7是用于例如图6的解码器的示例性视频解码器中的广义双预测模块的功能框图。

图8是多个时间层和一分层预测结构的示意图。

图9是在一些实施例中采用的广义双预测(generalized bi-prediction，GBi)适配和加速方法的流程图。

图10是两层可缩放(scalable)视频编码器的示例架构的示意图。

图11是两层可缩放视频解码器的示例架构的示意图。

图12是示出了译码比特流结构的示例的示意图。

图13是示出了示例通信系统的示意图。

图14是示出了示例性无线发射/接收单元(WTRU)的示意图。

具体实施方式

基于块的视频译码的概述。

图1是基于块的混合视频编码系统的功能框图。输入视频信号102被逐块处理。在HEVC中，扩展的块大小(称为“译码单元”或CU)用于有效地压缩高分辨率(1080p及以上)视频信号。在HEVC中，CU可高达64x64像素。CU可进一步分割成预测单元或PU，针对所述预测单元或PU，可应用单独的预测方法。对于每一输入视频块(MB或CU)，可执行空间预测(160)和/或时间预测(162)。空间预测(或“帧内预测”)使用来自同一视频图片/切片中的已译码相邻块的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已译码视频图片的像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。通常通过一个或一个以上运动向量来用信号发送给定视频块的时间预测信号，所述运动向量指示当前块与其参考块之间的运动量及运动方向。此外，如果支持多个参考图片(如对于诸如H.264/AVC或HEVC的最近视频译码标准的情况)，则对于每个视频块，附加地发送其参考图片索引，并且该参考索引用于标识所述时间预测信号来自参考图片存储库(164)中的哪个参考图片。在空间和/或时间预测之后，编码器中的模式决策块(180)例如基于速率失真优化方法来选择最佳预测模式。然后从当前视频块中减去(116)所述预测块以生成预测残差，并且使用变换(104)和量化(106)对该预测残差进行去相关以实现目标比特率。量化的残差系数被逆量化(110)和逆变换(112)以形成重构的残差，然后将该重构的残差加回(126)到所述预测块以形成重构的视频块。在将该重构的视频块放入参考图片存储库(164)中且用于译码未来视频块之前，可对所述重构的视频块应用(166)例如解块过滤器及适配环路过滤器等进一步环路内过滤。为了形成输出视频比特流120，译码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵译码单元(108)，以被进一步压缩和打包以形成所述比特流。

图2是基于块的视频解码器的功能框图。所述视频比特流202首先在熵解码单元208被解包和熵解码。所述译码模式和预测信息被发送到空间预测单元260(如果是帧内编码的)或时间预测单元262(如果是帧间编码的)以形成所述预测块。所述残差变换系数发送到逆量化单元210和逆变换单元212以重构所述残差块。然后在226将所述预测块和所述残差块加在一起。在将所述重构块存储在参考图片存储库264中之前，可以进一步对其进行环内过滤。然后，将参考图片存储库中的重构视频发送出去以驱动显示设备，以及用于预测未来的视频块。

在现代视频编解码器中，双向运动补偿预测(MCP)由于其通过利用图片之间的时间相关性来移除时间冗余的高效率而为人所知，并且其已经被广泛地用于大多数现有技术的视频编解码器中。然而，双预测信号是通过使用等于0.5的权重值来组合两个单预测信号而简单地形成的。这不一定是组合两个单预测信号的最佳方式，特别是在照度从一个参考图片到另一个参考图片快速变化的条件下。因此，若干预测技术旨在通过向参考图片中的每个样本值应用一些全局或局部权重和偏移值来补偿随时间的照度变化。

加权双预测。

加权双预测是一种译码工具，主要用于在执行运动补偿时补偿随时间的照度变化，例如衰落转变。对于每个切片，明确地指示两组乘性权重值和加法偏移值，并且将它们分别应用于运动补偿预测，每次一个用于每个参考列表。当照度从图片到图片线性变化并且该照度变化在图片/切片级别上是全局的时，该技术工作得最好。

局部照度补偿。

局部照度补偿通过在逐块的基础上适配参数(两对乘法权重值和加法偏移值)来解决该问题。与在切片级指示这些参数的加权双预测不同，该技术采取使最优参数来适配模板(T_C)的重构信号和该模板的预测信号(T₀和T₁)之间的照度变化(见图3)。通过分别最小化T_C和T₀之间(对于第一对权重和偏移值)以及T_C和T₁之间(对于第二对权重和偏移值)的照度差来优化所得到的参数。然后，利用所导出的参数执行与加权双预测相同的运动补偿处理。

广义双预测。

已经提出了广义双预测(GBi)来改进双预测模式的运动补偿预测。广义的双预测在例如以下文献中被描述：C.-C.Chen，X.Xiu，Y.He，Y.Ye，“Generalized Bi-predictionfor Inter Coding(用于帧间译码的广义双预测)”，JVET-C0047，2016年5月；以及2017年11月16日公开的国际申请公开号WO2017197146，“Systems and Methods for GeneralizedMulti-Hypothesis Prediction for Video Coding(用于视频译码的广义多假设预测的系统和方法)”。

在双预测模式中，样本x处的预测信号由公式1给出，并可通过公式1而被计算：

P[x]＝w₀*P₀[x+v₀]+w₁*P₁[x+v₁]，公式1

其中P[x]表示位于图片位置x的样本x的结果预测信号，P_i[x+v_i]是使用第i个列表(例如列表0、列表1)的运动向量(MV)v_i的x的运动补偿预测信号，并且w₀和w₁是在块中的所有样本之间共享的两个权重值。基于此公式，可通过调整权重值w₀和w₁来获得多种预测信号。对w₀和w₁的一些配置可暗示与常规单预测和双预测相同的预测，例如(w₀，w₁)＝(1，0)针对利用参考列表L0的单预测，(0，1)针对利用参考列表L1的单预测，且(0.5，0.5)针对利用两个参考列表的常规双预测。所述权重是针对每一CU用信号发送的。为了减少信令开销，可以应用的一个约束是w₀+w₁＝1。在这种约束下，只需要用信号发送一个权重。(这样，单个权重的信令可以被称为关于一对权重的信令)。因此，公式1可被进一步简化为：

P[x]＝(1-w₁)*P₀[x+v₀]+w₁*P₁[x+v₁]. 公式2

为了进一步减少所述权重信令开销，w₁可被离散化为有限数目的可用双预测权重，例如七个权重{-1/4，1/4，3/8，1/2，5/8，3/4，5/4}，因此每个权重值可以由非常小的有限范围内的索引值来指示。在这种情况下，可用的双预测权重对可以被表示为(-1/4,5/4),(1/4,3/4),(3/8,5/8),(1/2,1/2),(5/8,3/8),(3/4,1/4),和(5/4,-1/4)。

图4是根据一些实施例的视频编码器的框图。与图1所示的视频编码器类似，空间预测和时间预测是两个基本像素域预测模块。空间预测模块可以与图1中介绍的相同，然而，与图1的运动预测模块162相比，图4的运动预测模块462通过允许双预测以加权平均方式组合两个单独的预测信号来提供GBi支持。此外，在比特流中用信号发送所选定的权重索引。如图5所示，示例性GBi估计模块500执行两步骤过程以生成最终帧间预测信号。它包括运动估计模块502，用于在(一个或多个)参考图片中执行运动估计，这其中包括搜索指向两个参考块的两个最优运动向量(MV)。其进一步包括一权重值估计模块504，其用于搜索一最优权重索引以使当前视频块与双预测之间的加权双预测误差最小化。然后，将广义双预测的预测信号计算为所述两个预测块的加权平均。

图6是解码由例如图4的视频编码器产生的比特流的示例性视频解码器的功能框图。所述译码模式和预测信息用于使用空间预测或运动补偿预测(具有广义的双预测支持)来导出所述预测信号。对于广义双预测，可接收并解码所述块运动信息和权重值以便生成所述预测块。

通过所述块运动信息和权重值，所述广义双预测模块(例如，图7中所说明的模块750)将广义双预测的预测信号计算为所述两个经运动补偿预测块的加权平均值。所述广义双预测模块750可包含运动补偿模块752及加权平均模块754。

分层预测和时间层。

分层预测结构广泛用于随机存取配置中以提供有效的时间预测。图8示意性地示出了使用四个时间层(TL)的分层预测的示例，其中箭头描绘了当前图片与其参考图片之间的预测关系(箭头从参考图片开始并且去往被预测的当前图片)。如图所示，在分层预测中，较高TL图片通常根据时间距离较近的参考图片来预测(例如，TL-3图片根据时间相邻图片来预测)，而较低TL层图片具有距其参考图片的较大时间距离(例如，具有图片顺序计数(POC)或POC8的TL0图片与其具有图片顺序计数POC0的参考图片相距8个图片)。还注意到，在最高TL(图8中的TL-3)，图片不被任何其它图片用作参考图片，即，它们是非参考图片。在该实施例中，使用四个TL。可以使用更深的层次，例如JVET公共测试条件(CTC)在其随机存取配置中使用五个TL。

在分层预测中，可以根据当前图片所处的TL来调整图片/切片级量化参数(QP)值。具体地，如果QP0用于TL0图片，则QP0+delta(TLx)可以用于位于TLx处的图片，其中delta()是基于时间级别的函数，并且delta()是零或正整数。在一个示例中，delta(TLx)可以被设置为TLx。

示例性实施例的概述。

在编码器侧，导出最佳运动向量和最佳GBi权重可能显著增加计算复杂度。为了找到最佳权重/运动向量组合，编码器可以操作以迭代地细化这两个MV和用于双预测的权重，即，公式2中的v₀、v₁以及w₁。在CU级执行该过程，并且如果使用穷举搜索，则计算复杂度将变得极高。对于一些CU，测试所有七个权重{-1/4,1/4,3/8,1/2,5/8,3/4,5/4}可能不是有效的。例如，参考公式2，当待译码的当前CU的两个预测P₀和P₁相似时，无论应用什么权重值，最终双预测都将相似。这表明编码器不必测试如此多的权重选项并用信号发送从如此多的权重中选择的最佳权重。相反，在P₀和P₁非常相似的情况下，允许更多的权重将导致针对该权重的更多的信令开销，这可能降低GBi的译码效率。

本文公开的示例性实施例涉及提高译码效率并降低GBi的编码复杂度。

在一些实施例中，基于时间层、两个参考图片的时间距离或两个预测信号的相对质量来减少可用的GBi权重的数目。

在一些实施例中，通过针对不同的运动向量精度重用GBi权重来降低GBi的编码复杂度。

一些实施例包括用于确定何时终止确定GBi权重的过程以降低编码复杂度的技术。

一些实施例包括用于基于运动估计成本来快速确定GBi权重的技术。

本公开描述了用于减少广义双预测的复杂性的技术。这些技术可以使用图4的编码器和图6的解码器来实现。一些实施例用于减少GBi权重信令开销。一些实施例可操作以降低GBi权重选择的复杂度。

基于TL和QP的图片/切片级GBi适配。

如上文所论述，QP调适广泛用于分层预测中。当QP适配与双预测结合使用时，如果两个参考图片来自两个时间层，则它们可能具有不同的质量。GBi增益的一部分来自于此，因为可以将更大的权重应用于来自具有更高质量(例如，更低的QP)的参考图片的参考块以得到更好的最终预测。通过这种考虑，当在不同的时间层处对图片进行译码时，可以适配GBi权重。

在第一实施例中，可以根据当前图片的TL来适配允许的GBi权重的数目。将时间层i的GBi权重索引的允许数目表示为c_i。对于具有k个时间层的译码结构，可以用于每个时间层的权重的数目可以表示为{c₀,c₁,…,c_k-1}。通常，较低时间层图片具有较高质量且将更频繁地用作参考图片以译码其它图片(来自相同或较高时间级)。因此，较低TL图片的译码质量在实现较好整体译码效率方面更重要。因此，在一些实施例中，较低TL的图片可以使用更多数目的GBi权重，以便改善较低TL图片的预测质量和译码质量。例如，可以应用条件c₀≤c₁≤…≤c_k-1，以便对较低TL图片有较大数目的权重选择。在较高时间层，与较低时间层相比，减少了允许的GBi权重的数目。这不仅可以减少较高TL图片的信令开销，而且可以加速较高TL图片的编码。例如，最低的一个或两个时间层(例如TL0和/或TL1)可以允许不同的七组权重，较高的中间时间层(例如TL2)可以仅允许不同的三组权重，并且在最高时间级(例如图8中的TL3)处，对于非参考图片，可以仅允许常规双预测(即，仅允许一组(0.5，0.5)权重)。

与较低时间层图片中的块相比，高时间层图片中的块的GBi增益可能相对较小。这是因为高时间层图片通常具有在时间距离上非常接近的参考图片，因此即使没有GBi，这些高TL中的块也趋向于被更准确或充分地预测。此外，较高QP通常用于高时间层图片，这导致较多跳过块和/或零残差块。因此，除了基于当前图片的TL而适配GBi之外，在GBi适配中也可考虑所述当前图片的QP值。例如，如果所述当前图片的切片/图片级QP足够高，则仅允许具有相等权重的常规双预测(或者允许较小的一组GBi权重)。这可能带来一些质量下降，但是可以通过减少信令开销来补偿该损失。由于GBi被关闭或者使用了较小的一组GBi权重，因此可以跳过GBi索引信令，或者可以使用更少的比特来译码GBi索引。使用基于切片级QP的GBi适配的实施例可与上述基于TL的GBi适配结合使用。如果当前图片的TL和/或切片级QP足够高，则可以减少允许的GBi权重的数目，或者可以完全禁用GBi(例如，对于双预测，仅允许相等的权重)。在解码器侧，所述时间层和/或切片QP值对解码器是已知的。因此，如果解码器基于TL和/或切片QP值确定GBi已经被关闭，则它可以跳过在CU级的GBi权重信息解析。通过针对某些时间层和/或切片QP值跳过GBi过程，GBi可以以可忽略的性能损失而被加速。

在另一实施例中，代替通过使用当前图片的TL和/或利用当前图片的QP来确定该图片的可用权重的数目，编码器可适配地选择它在对所述当前图片进行编码时使用的GBi权重的数目。在这种情况下，编码器可以在比特流中用信号发送在切片/图片级允许的GBi权重的数目和实际允许的GBi权重。所允许GBi权重的此高级信令可作为切片头部的部分而用信号发送，或可在图片参数集PPS中用信号发送。在CU层级，可仅使用当前切片/图片所允许的权重，且可仅用信号发送与这些所允许的权重相关联的GBi索引。

基于参考信号质量的块级GBi适配。

如上所述，一些实施例基于TL和/或切片级QP来适配图片级的GBi权重的数目。除了在图片级调整GBi权重之外或作为其替代，也可以采用块级GBi调整。

在双预测中，从两个参考图片预测当前块，每一参考图片列表一个参考图片。然后，在GBi中，两个参考信号P₀和P₁通过使用公式2而被组合，在一些实施例中，可基于所述两个预测信号P₀和P₁的相对质量，在块级别处适配GBi权重。代替允许完整的一组例如GBi中的七个权重用于当前块，可允许权重可以以这样的方式被限制，即，仅较大的权重被用于具有较高质量的预测，并且仅较小的权重被用于具有较低质量的预测。例如，在无约束GBi中，w₁为P₁的GBi权重，可以具有例如七个值，其可以是{-1/4，1/4，3/8，1/2，5/8，3/4，5/4}。对于用双预测模式译码的当前块，如果P₁具有比P₀高的质量，那么对于w₁，仅可允许大于或等于(1/2)的w₁值的子集。例如，对于当前块，可以仅允许子集{1/2，5/8，3/4，5/4}。另一方面，如果P₀具有比P₁高的质量，则仅允许小于或等于(1/2)的w₁值的子集。例如，对于当前块，可以仅允许子集{-1/4，1/4，3/8，1/2}。这样，可以减少GBi权重信令开销，并且还可以加速编码。

不同的实施例可以使用不同的技术来估计P₀和P₁的相对质量。在第一实施例中，当前切片与其列表0和列表1中的参考图片中的每一者之间的时间距离可用于估计P₀和P₁的相对质量。具体地，来自在时间上更接近当前图片的参考图片的预测信号更有可能具有更高的相关性，并且因此提供更高质量的预测。R₀和R₁分别表示从其获得P₀ and P₁的参考图片。并且d₀ and d₁分别表示R₀ and R₁与当前图片之间的时间距离。两个图片之间的时间距离可以通过它们的图片顺序计数的差来测量。如果d₀≤d₁，那么P₀很可能具有比P₁更高的质量，并且因此w₁值应当被限制为小于或等于(1/2)的值，即，仅向P₀分配较大的权重。在一些实施例中，在相等的时间距离d₀＝d₁的情况下，可以考虑所有权重对。

在第二实施例中，在确定相对质量时，可以考虑与P₀ and P₁相关联的QP值。这可以是用于对参考图片R₀和R₁进行译码的切切片级QP值，或其可以是用于对预测块P₀和P₁进行译码的块级QP值，这可发生在例如在对参考图片R₀和R₁进行译码时应用块层级QP改变的情况下。因为分数像素(fractional-pel)精度运动向量可以用于运动补偿预测以获得P₀和P₁，并且P₀和P₁可以对应于R₀和R₁中的多于一个的块分区。以P₀为例。如果它覆盖了R₀中的N个块分区，并且如果使用不同的块级QP对这N个块分区中的每一个进行译码，则可以使用这些块级QP的平均值来计算与P₀相关联的块级QP。QP₀和QP₁分别表示与P₀和P₁相关联的QP值。不失一般性的，假设QP₀≤QP₁。则P₀很可能具有比P₁更高的质量，因此w₁值应当被限制为小于或等于1/2的值，即，仅向P₀指派较大的权重。在一些实施例中，在QP值相等的情况下，可以考虑所有权重对。

在第三实施例中，P₀和P₁与当前图片的时间距离以及与P₀和P₁相关联的QP可被组合使用，以确定当前块的允许GBi权重的数目。例如，如果d₀≤d₁且QP₀≤QP₁，则可以进一步约束当前块的允许GBi权重以支持更大的权重用于P₀。例如，在这种情况下，仅最大的两个权重可被用于P₀。相反，在w₁的完整一组例如七个权重值中，仅允许两个最小值{-1/4，1/4}用于当前块。

类似于图片级GBi适配，块级GBi适配也可用于加速编码。在运动估计阶段，可通过以下来执行双预测运动搜索：从每个参考图片列表中选择一个参考图片、针对从一个列表中选择的该参考图片搜索最佳运动向量、针对从该列表选择的该参考图片固定所述运动向量、以及针对从另一列表中选择的参考图片细化所述运动向量。在该阶段，在示例性实施例中，可以计算P₀和P₁的两个时间距离和/或与P₀和P₁相关联的QP值，以确定当前块的允许GBi权重的子集。在编码器搜索期间，如果较大权重正被应用于来自较远参考图片的参考块(且因此不允许用于当前块)，那么可针对此参考图片对，停止双预测运动搜索，且所述过程可继续进行到下一参考图片对。

基于两个预测信号之间的相似性的GBi适配。

GBi预测是使用公式2计算的，其中两个预测信号P₀和P₁被加权平均。当P₀和P₁足够相似时，应用较大一组权重将不是非常有帮助，因为最终预测将彼此非常相似，而不管所述权重有多不同。因此，在一些实施例中，所述一组GBi权重可以通过评估P₀和P₁之间的相似性并确定P₀和P₁之间的相似性级别而被约束。在一些实施例中，通过计算P₀和P₁之间的绝对差值和(SAD)值来确定所述相似性级别。如果所述SAD值小于预定阈值，则可以为当前块跳过不相等GBi权重，并且可以仅允许传统的双预测。也可以使用其它相似性度量，例如平方误差和(SSE)。在一些实施例中，可以应用分层约束方法。例如，可以使用一组两个阈值，其中T₀＜T₁。如果SAD(P₀，P₁)＜T₀，则仅允许常规双预测(具有相等权重)。如果T₀≤SAD(P₀，P₁)＜T₁，则仅允许较小的一组GBi权重，例如，约束的一组包含{1/4，1/2，3/4}的三个权重(在这种情况下，两个最为偏置的权重和相等权重)。最后，如果T₁≤SAD(P₀，P₁)，则允许完整的一组例如七个GBi权重。

在一些实施例中，基于相似性的GBi适配可以与上述图片级或块级GBi适配组合使用。例如，在上述分层约束方法中，如果T₀≤SAD(P₀，P₁)＜T₁，则可以根据P₀和P₁的质量进一步约束所述约束的一组三个权重。不失一般性，假设P₀具有比P₁更高的质量(例如，其来自时间上更近的参考图片，和/或与P₀相关联的QP更低)，则所述一组三个权重可以被进一步约束为一组包含允许用于w₁的{1/4，1/2}的两个权重。

编码器加速：针对不同运动向量精度的GBi权重的重用。

当前在JEM中，对于显式(即，非合并)帧间预测模式，运动向量可具有不同精度：1/4像素精度、1像素精度、以及4像素精度。允许块级别上的更多运动向量精度提供了比特率和质量之间的更多折衷点。在没有编码器加速技术的情况下，以七权重配置为例，利用三个不同的运动向量精度，对于双预测，运动搜索和速率失真处理将被执行21次，这将导致非常高的编码器复杂度。

通常，由显式帧间预测模式以不同的运动向量精度决定的最终运动向量彼此非常相似。结果，由一个运动向量精度决定的最佳参考块可能几乎与来自其它运动向量精度的那些相同。从这个观察结果，将来自一个运动精度的最佳GBi权重重新用于其它运动向量精度是合理的。

在一个实施例中，根据JEM软件的当前实施方案，总是在显式帧间预测模式的运动搜索中首先测试1/4像素精度。在示例性实施例中，在循环所有GBi权重以找到1/4像素精度情况的最佳GBi权重之后，对于剩余运动向量精度的运动搜索，可跳过其它GBi权重。例如，随后的搜索可以仅测试传统(1/2，1/2)权重对加上由所述1/4像素精度搜索选择的所述最佳GBi权重。通过这样做，可以减少GBi权重迭代的次数，因此降低了编码器复杂度。在替代实施例中，可以改变关于运动向量精度的编码命令，并且因此所述重用可对于其它组合是灵活的，例如可将由1像素选择的最佳GBi权重用于1/4像素和4像素编码。

在另一实施例中，不是仅将最佳GBi权重重新用于另一运动向量精度，而是选择最佳的两个或N个权重作为另一运动向量精度的候选，以减轻可能已通过该简化方法带给编码器的潜在损失。可以使用一阈值来确定除了所述最佳GBi权重之外的另一GBi权重是否仍然由所述另一运动向量精度测试。如果速率失真成本小于根据最佳GBi权重成本计算的所述阈值，则该特定GBi权重也将被重新用于所述另一运动向量精度。

重用所述最佳GBi权重的实施例可以与上述GBi适配方法结合，以进一步提高编码器的灵活性，从而在复杂度和性能之间找到更好的折衷。通过这样做，可以降低GBi编码过程的复杂度，同时仍提供高性能。

编码器加速：GBi过程的提前终止。

在一些实施例中，所述GBi权重搜索过程通过提前终止而被简化。下面描述两类提前终止条件。

在一些实施例中使用的一个提前终止条件是基于当前块的分区深度。在JEM的当前设计中，采用四叉树二叉树CU分级结构，其中首先使用四叉树分区来划分译码树单元(CTU)。四叉树叶节点作为二叉树(BT)的根。通常，当CU大小非常小时，GBi效果较差。因此，在一些实施例中，检查当前BT深度以便决定是否提前终止所述GBi搜索过程。不管BT深度如何，总是应用相等权重对运动搜索。对于不相等的权重对，如果发现当前BT深度已经大于阈值，则在运动搜索中可以跳过剩余GBi权重。代替使用所述BT深度，所述BT大小也可用于确定是否将在运动搜索中测试非相等GBi权重。如果所述BT大小(例如，BT宽度乘以BT高度)小于预定阈值，则可以跳过非相等GBi权重。

在一些实施例中，如果当前BT具有大于预设阈值的深度和/或如果其大小小于预设阈值，则该方法还可用于针对当前BT标准化地禁用GBi。当该方法被标准化地使用时，解码器可以操作以为这样的块跳过解析GBi权重。

在一些实施例中使用的另一提前终止条件是基于译码块标志(CBF)。在JEM编解码器中使用CBF标志来指示是否将对通过从当前块中减去预测块而计算的残差误差进行编码并将其用信号发送给解码器。通常，当编码器决定跳过所述残差误差时，它指示预测已经足够好，因为所有量化的变换系数都可以被设置为0。利用这一点，在一些实施例中，如果编码器已经找到一个GBi权重(相等或不相等)，对于该权重，所述CBF标志可以被设置为0(指示残差误差不需要被译码)，则终止在运动搜索过程中的对剩余GBi权重的检查，因为这指示已经找到当前块的有效权重对。

可能存在两种情况，其中编码器将决定将所述CBF设置为0。第一种情况是当编码器尝试CBF被设置为0的模式以尝试减少开销时。第二种情况是在所述变换系数的量化之后所有变换系数实际上都为0。从性能的角度来看，由于第一种情况导致的提前终止GBi重量测试可能导致性能下降。因此，在一些实施例中，基于所述CBF标志的提前终止可以仅针对第二种情况执行。

编码器加速：基于合并模式的GBi简化。

在当前JEM实现中，发生GBi权重索引搜索的显式帧间预测模式位于所有其它帧间预测模式之后。利用这种设计，在一些实施例中，来自其他帧间预测模式的信息可用于加速所述GBi搜索过程。更具体来说，如果在显式帧间预测模式即将被测试时，最佳帧间预测模式是一跳过合并候选，且来自该跳过合并模式的GBi权重是不相等权重(针对一跳过合并块的GBi权重是从选定跳过合并候选继承的)，那么不需要检查所述显式帧间预测模式的不相等权重，因为使用从空间或时间相邻块合并的GBi权重已经能够提供不需要传输残差的非常好的预测。

在另一实施例中，为了进一步确保GBi的性能，在所述显式帧间预测模式测试期间，除了相等权重之外，我们可能还想测试与来自所述跳过合并模式的合并权重相同的GBi权重。

在另一实施例中，在所述显式帧间预测模式测试期间，可测试所有GBi权重(包含相等权重)，除了与所述合并权重相同的GBi权重。

编码器加速：基于运动估计成本的GBi简化。

当前GBi实现是基于速率失真的实现，其中在运动估计之后，计算使用可能的GBi权重中的每一个权重来编码所述当前块的速率失真(RD)成本。然后，选择具有最小RD成本的GBi权重。RD处理相对复杂，因为涉及变换和量化。因此，在一些实施例中，通过在运动估计阶段选择最佳GBi权重，可进一步降低GBi的复杂度。

在运动估计阶段，已经为单预测和双预测估计了比特率，以便决定是否使用双预测。此外，所述SAD或绝对变换差之和(SATD)也被计算(取决于运动向量精度，可以使用SAD或SATD)作为失真。利用所估计的比特率和失真，可计算成本。在示例性实施例中，可使用来自运动估计阶段的成本来选择最佳GBi权重(即，选择GBi权重作为具有最低SAD或SATD的权重)。通过这样做，只需要执行一次RD成本计算，从而降低GBi的复杂度。

图9是总结了所提出的GBi适配和加速方法的流程图。为了提供GBi的信令开销与性能之间的更好的折衷，并加速编码，在本公开中公开了各种实施例。这些实施例可以以各种组合使用。在图9的示例中，组合了若干实施例。给定完整的一组GBi权重，可以例如基于当前图片的TL、QP或编码器的决定来应用(902)图片级GBi权重适配，并且可以为当前图片选择缩减的一组GBi权重。然后，当对当前图片中的每个块(904)进行译码时，可以例如基于两个预测块的时间距离、它们的相对质量和/或它们彼此的相似性来应用块级GBi权重适配(906)，并且可以针对当前块选择进一步缩减的一组GBi权重。然后，在当前块的一组允许GBi权重内，编码器可以使用本文描述的加速方法(例如，基于当前块的深度、分区大小、CBF标志等)来选择当前块的最佳译码模式(908)，这其中包括最佳运动向量、参考索引和最佳对应GBi权重。

注意，尽管图9描绘了其中使用了若干公开的实施例的流程图，但是可以替换地使用公开的实施例的子集。例如，可以绕过所述图片级GBi适配(902)，并且可以将完整的一组GBi权重直接馈送到所述块级GBi适配块中。其他组合是可能的，例如，可以不应用编码器加速(908)，并且替代地，可以执行对最优GBi权重的穷举搜索。

尽管许多实施例在此被描述为以一组七个GBi权重{-1/4,1/4,3/8,1/2,5/8,3/4,5/4}作为一完整的GBi权重组来开始，但是所提出的方法一般可应用于任何一组起始GBi权重(其可包括不同数目的权重)和/或一组不同权重。

可缩放视频编码概述。

如上所述，一些实施例采用多层视频译码技术。例如，诸如可缩放视频译码和/或多视图视频译码之类的多层视频译码技术可以被设计成处理多于一个视频层，其中每一层可以被解码以重构特定空间分辨率、时间分辨率、保真度和/或视图的视频信号。

可缩放视频编码可改进在异构网络上具有不同能力的设备上运行的视频应用程序的体验质量。可缩放视频编码可以以最高表示(例如，时间分辨率、空间分辨率、质量等)对信号编码一次，但是使得能够根据在客户端设备上运行的某些应用所需的特定速率和表示而从所述视频流的子集进行解码。与不可缩放解决方案相比，可缩放视频译码可以节省带宽和/或存储。国际视频标准(例如MPEG-2视频、H.263、MPEG4视觉、H.264等)可以具有支持可缩放性模式的多种工具和/或简档。

表1提供了不同类型的可缩放性以及可以支持它们的相应标准的示例。比特深度可缩放性和/或色度格式可缩放性可与视频格式(例如，高于8位视频，且色度采样格式高于YUV4:2:0)联系在一起，举例来说，所述视频格式可主要由专业视频应用程序使用。可以提供纵横比可缩放性。

表1

可缩放视频译码可使用基础层比特流来提供与第一组视频参数相关联的第一视频质量级别。可缩放视频译码可使用一个或一个以上增强层比特流来提供与一组或一组以上增强参数相关联的一个或一个以上较高质量级别。该组视频参数可以包括以下中的一者或多者：空间分辨率、帧速率、重构视频质量(例如，以SNR、PSNR、VQM、视觉质量等的形式)、3D能力(例如，具有两个或更多个视图)、亮度和色度比特深度、色度格式和底层单层译码标准。不同的用例可以使用不同类型的可缩放性，例如，如表1中所示。可缩放译码架构可以提供一公共结构，其可以被配置为支持一个或多个可缩放性(例如，表1中列出的可缩放性)。可缩放译码架构可以是灵活的，以便以最小的配置工作来支持不同的可缩放性。一种可缩放译码架构可以包括至少一个优选的操作模式，其可以不需要改变块级操作，使得译码逻辑(例如，编码逻辑和/或解码逻辑)可以在可缩放译码系统中被最大地重用。例如，可以提供基于图片级层间处理和管理单元的可缩放译码架构，其中可以在图片级执行所述层间预测。

图10是两层可缩放视频编码器的示例架构的示意图。视频编码器950可接收视频(例如，增强层视频输入)。可使用下采样器952对增强层视频进行下采样以创建较低级别的视频输入(例如，基础层视频输入)。所述增强层视频输入和基础层视频输入可经由所述下采样过程彼此对应，并且可实现空间可缩放性。基础层编码器954(例如，此示例中的HEVC编码器)可逐块编码所述基础层视频输入块，且产生基础层比特流。图1是可用作图10中的所述基础层编码器的示例性基于块的单层视频编码器的示意图。

在增强层处，增强层(EL)编码器956可以接收所述EL输入视频输入，该EL输入视频输入可以具有比所述基础层视频输入更高的空间分辨率(例如，和/或其他视频参数的更高值)。所述EL编码器956可以以与基础层视频编码器954基本上类似的方式产生EL比特流，例如通过使用空间预测和/或时间预测来实现压缩。层间预测(ILP)可以在EL编码器956处可用，以提高其译码性能。与可以基于当前增强层中的译码视频信号导出预测信号的空间预测和时间预测不同，层间预测可以基于来自基础层(例如，和/或当可缩放系统中存在多于两个层时的其他较低层)的编码视频信号导出预测信号。至少两种形式的层间预测(图片级ILP和块级ILP)可以用在所述可缩放系统中。这里讨论了图片级ILP和块级ILP。比特流复用器958可将所述基础层比特流和增强层比特流组合在一起以产生可缩放比特流。

图11是两层可缩放视频解码器的示例架构的示意图。图11的所述两层可缩放视频解码器架构可以对应于图10中的可缩放编码器。视频解码器1000可以从例如可缩放编码器(例如可缩放编码器900)接收可缩放比特流。解复用器1002可将所述可缩放比特流分离为基础层比特流和增强层比特流。基础层解码器1004可解码基础层比特流且可重构基础层视频。图2是可用作图11中的基础层解码器的示例性基于块的单层视频解码器的示意图。

增强层解码器1006可以对所述增强层比特流进行解码。EL解码器1006可以与基础层视频解码器1004基本类似的方式对EL比特流进行解码。增强层解码器可使用来自当前层的信息和/或来自一个或一个以上相依层(例如，基础层)的信息来这样做。例如，来自一个或多个相依层的这种信息可以通过层间处理，这可以在使用图片级ILP和/或块级ILP时完成。尽管未示出，附加的ILP信息可以在MUX 958处与基础和增强层比特流一起被复用。该ILP信息可由DEMUX 1002解复用。

使用时间层来确定可用双预测权重数目的实施例。

在一些实施例中，提供一种对包括多个图片的视频进行译码的方法，所述多个图片包含当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的时间层，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重中，识别第一权重和第二权重；以及将所述当前块预测为所述第一参考图片中的第一参考块与所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权且所述第二参考块由所述第二权重加权。

在一些实施例中，用以标识比特流中的双预测权重的比特的数目是基于可用双预测权重的所确定的数目。在一些实施例中，仅在可用双预测权重的数目大于一时，才在比特流中用信号发送标识至少所述第一权重的索引。在一些实施例中，所述第一和第二权重的和为一。在一些此类实施例中，可用双预测权重的数目针对增加的时间层而减少。在一些实施例中，七个双预测权重可用于至少一个最低时间层。在一些实施例中，三个双预测权重可用于最低时间层上方的至少一个时间层。在一些实施例中，0.5的一个双预测权重可用于至少一个最高时间层。

在一些实施例中，提供了一种用于对包括多个图片的视频进行编码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的时间层，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重当中，选择第一权重和第二权重以用于所述当前块的预测；以及仅在所述可用双预测权重的所述所确定数目大于一时，才在比特流中用信号发送标识至少所述第一权重的索引。在一些此类方法中，用于用信号发送所述索引的比特的数目是基于可用双预测权重的所确定数目的。

在一些实施例中，提供了一种用于对来自比特流的视频进行解码的方法，其中，所述视频包括多个图片，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片具有多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的时间层，确定可用双预测权重的数目；仅在所述可用双预测权重的所述所确定数目大于一时，才从所述比特流解析一标识至少第一双预测权重的索引。在一些此类实施例中，用于用信号发送所述索引的比特的数目是基于可用双预测权重的所确定数目的。

使用量化参数来确定可用权重的数目的实施例。

在一些实施例中，提供一种对包括多个图片的视频进行译码的方法，所述多个图片包含当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的量化参数，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重中识别第一权重和第二权重；以及将所述当前块预测为所述第一参考图片中的第一参考块与所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权且所述第二参考块由所述第二权重加权。

在一些此类实施例中，比特流中用于标识双预测权重的比特的数目是基于可用双预测权重的所确定的数目。在一些实施例中，仅在可用双预测权重的数目大于一时，才在比特流中用信号发送标识至少所述第一权重的索引。在一些实施例中，所述第一和第二权重的和为一。在一些实施例中，可用双预测权重的所述数目针对增加的量化参数而减少。

在一些实施例中，七个双预测权重可用于所述量化参数的至少一个最低值。在一些实施例中，三个双预测权重可用于所述量化参数的所述最低值以上的所述量化参数的至少一个值。在一些实施例中，0.5的一个双预测权重可用于所述量化参数的至少一个最高值。

在一些实施例中，提供了一种用于对包括多个图片的视频进行编码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的量化参数，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重当中，选择第一权重和第二权重以用于所述当前块的预测；以及仅在所述可用双预测权重的所述所确定数目大于一时，才在比特流中用信号发送标识至少所述第一权重的索引。在一些此类实施例中，用于用信号发送所述索引的比特的数目是基于可用双预测权重的所确定数目的。

一种对来自比特流的视频进行解码的方法，所述视频包括多个图片，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的量化参数，确定可用双预测权重的数目；以及仅在所述可用双预测权重的所述所确定数目大于一时，从所述比特流解析一标识至少第一双预测权重的索引。在一些此类实施例中，用于用信号发送所述索引的比特的数目是基于可用双预测权重的所确定数目的。

使用质量度量来确定可用权重的数目的实施例。

在一些实施例中，提供一种用于对包括多个图片的视频进行译码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的质量度量，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重中，识别第一权重和第二权重；以及将所述当前块预测为所述第一参考图片中的第一参考块与所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权且所述第二参考块由所述第二权重加权。

在一些此类实施例中，所述质量度量由所述当前图片的时间层确定。在一些实施例中，所述质量度量由所述当前图片的量化参数确定。在一些实施例中，所述质量度量由所述当前图片的量化参数和时间层确定。

在一些实施例中，提供了一种用于对包括多个图片的视频进行译码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的质量度量，确定可用双预测权重对的数目；从所述确定数目的可用双预测权重对中，识别权重对，所述识别的权重对包含较高权重和较低权重；确定所述第一和第二参考图片中的哪一者是较高质量参考图片以及哪一者是较低质量参考图片；以及将所述当前块预测为所述较高质量参考图片中的较高质量参考块和所述较低质量参考图片中的较低质量参考块的加权和，其中，所述较高质量参考块由所述较高权重加权，而所述较低质量参考块由所述较低权重加权。

用信号发送可用权重的数目的实施例。

在一些实施例中，提供一种对包括多个图片的视频进行译码的方法，所述多个图片包含当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：确定可用双预测权重的数目，其中在比特流中用信号发送可用双预测权重的所述数目；从所述所确定数目的可用双预测权重中，识别第一权重和第二权重；以及将所述当前块预测为所述第一参考图片中的第一参考块与所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权且所述第二参考块由所述第二权重加权。在一些实施例中，用以在所述比特流中标识所述双预测权重的比特的数目是基于可用双预测权重的所确定的数目的。在一些实施例中，仅在可用双预测权重的所述数目大于一时，才在比特流中用信号发送标识至少所述第一权重的索引。

基于参考图片质量来指派权重的实施例。

在一些实施例中，提供了一种用于对包括多个图片的视频进行编码的方法，所述多个图片包括当前图片、第一参考图片和第二参考图片，每个图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：确定所述第一和第二参考图片中的哪一者是较高质量参考图片以及哪一者是较低质量参考图片；从多个可用双预测权重当中，识别第一权重和第二权重，其中所述第二权重不大于所述第一权重；以及将所述当前块预测为所述较高质量参考图片中的较高质量参考块和所述较低质量参考图片中的较低质量参考块的加权和，其中，所述较高质量参考块由所述第一权重加权，而所述较低质量参考块由所述第二权重加权。

在一些这样的实施例中，确定所述第一和第二参考图片中的哪一者是较高质量参考图片以及哪一者是较低质量参考图片包括：选择所述第一和第二参考图片中在时间上更接近所述当前图片的一个参考图片作为较高质量参考图片。在一些实施例中，所述第一和第二参考图片中的每一个参考图片具有相关联的量化参数，并且其中确定所述第一和第二参考图片中的哪一者是较高质量参考图片以及哪一者是较低质量参考图片包括：选择所述第一和第二参考图片中具有较低相关联的量化参数的一个参考图片作为所述较高质量参考图片。所述相关联的量化参数可以是所述第一和第二参考图片的切片级量化参数。所述相关联的量化参数可以是所述第一参考图片和所述第二参考图片中的对应参考块的块级量化参数。可通过对用于译码相应参考块的块分区的块级量化参数求平均来确定所述相应参考块的块级量化参数。

一些实施例包含确定可用双预测权重的数目，其中可用双预测权重的所述数目是至少部分基于所述较高质量与较低质量参考图片之间的质量差而确定。较大的质量差可对应于较低数目的可用双预测权重。可以基于相应参考图片的相应关联量化参数和相应参考图片距所述当前图片的时间距离这两者来确定所述质量差。

在一些实施例中，确定所述第一参考块与所述第二参考块之间的相似性级别；以及至少部分基于所述相似性级别，确定可用双预测权重的数目，其中从所述所确定数目的可用双预测权重当中，执行关于所述第一权重和所述第二权重的所述识别。在一些实施例中，至少部分基于所述当前图片的时间层，确定可用双预测权重的数目，其中从可用双预测权重的所确定数目当中，执行关于所述第一权重和第二权重的所述识别。在一些实施例中，至少部分基于所述当前图片的量化参数，确定可用双预测权重的数目，其中从可用双预测权重的所确定数目当中，执行关于所述第一权重和第二权重的所述识别。

在一些实施例中，使用在比特流中用信号发送的索引来标识所述第一权重和第二权重。在一些这样的实施例中，所述索引标识从由{5/4,-1/4}、{3/4,1/4}、{5/8,3/8}和{1/2,1/2}组成的组中选择的无序加权对。

使用图片相似性来确定可用权重的数目的实施例。

在一些实施例中，提供一种对包括多个图片的视频进行译码的方法，所述多个图片包含当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：识别所述第一参考图片中的第一参考块及所述第二参考图片中的第二参考块；确定所述第一参考块与所述第二参考块之间的相似性级别；至少部分基于所述相似性级别，确定可用双预测权重的数目；从所述所确定数目的可用双预测权重中，识别第一权重和第二权重；以及将所述当前块预测为所述第一参考图片中的第一参考块与所述第二参考图片中的第二参考块的加权和，其中所述第一参考块由所述第一权重加权且所述第二块由所述第二权重加权。在一些此类实施例中，确定相似性级别包括确定所述第一参考块与所述第二参考块之间的绝对差的和。

在一些实施例中，响应于确定所述相似性级别高于阈值，所述第一权重和第二权重都是0.5。在一些实施例中，对于至少一个最低相似性级别，可用双预测权重的数目为七。在一些实施例中，对于高于所述最低相似性级别的至少一个相似性级别，可用双预测权重的数目为三。

使用多阶段运动搜索的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：使用第一精度级别，执行第一双预测运动搜索以选择第一组运动向量和第一对双预测权重，所述第一搜索确定一组N对最佳双预测权重；使用不同于所述第一精度级别的至少第二精度级别，执行至少第二搜索以选择至少第二组运动向量和至少第二对双预测权重，所述第二搜索仅在所述N对最佳双预测权重上执行；从(i)所述第一组运动向量和第一对双预测权重以及(ii)至少所述第二组运动向量和第二对双预测权重当中，选择用于所述当前块的译码的一选定组的运动向量和双预测权重；以及使用所述选定组的运动向量和双预测权重来编码所述当前块。在一些实施例中，所述第一精度级别是1/4像素。在一些实施例中，所述第二精度级别是1像素。

在一些实施例中，所述一组N个最佳对是双预测权重的单个最佳对。在一些实施例中，所述一组N个最佳对包括对(1/2、1/2)。在一些实施例中，所述一组N个最佳对包括一最佳对的双预测权重和所述对(1/2、1/2)。在一些实施例中，所述一组N个最佳对包括给出小于预定阈值的速率失真成本的所有对。

在一些实施例中，所述第一搜索在预定一组七个双预测权重上被执行。在一些实施例中，在预定一组可用双预测权重上执行所述第一搜索，其中至少部分基于当前图片的时间级别来确定可用双预测权重的数目。在一些实施例中，在预定一组可用双预测权重上执行所述第一搜索，其中至少部分基于当前图片的量化参数来确定可用双预测权重的数目。在一些实施例中，编码所述当前块包括：在所述比特流中译码一信息，该信息标识所选的一组运动向量和双预测权重。

使用二叉树深度来限制运动搜索的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：确定所述当前块的二叉树深度是否不大于预定阈值；并且仅在所述二叉树深度不大于所述阈值的情况下：执行对一组最佳运动向量和双预测权重的搜索，所述搜索是在多对双预测权重上执行；以及使用所述最佳一对双预测权重来编码所述当前块。在一些此类实施例中，响应于确定所述二叉树深度大于所述阈值，执行对一组最佳运动向量的搜索，所述搜索是使用仅相等的双预测权重来执行。

使用块大小来限制运动搜索的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：确定所述当前块的块大小是否小于预定阈值；并且仅在所述块大小小于所述阈值的情况下：执行对一组最佳运动向量和双预测权重的搜索，所述搜索是在多对双预测权重上执行的；以及使用所述最佳一对双预测权重来编码所述当前块。在一些实施例中，所述方法进一步包含响应于所述二叉树深度小于所述阈值的确定，执行对一组最佳运动向量的搜索，所述搜索是使用仅相等双预测权重来执行的。在一些此类实施例中，所述块大小是所述当前块的宽度与高度的乘积。

使用CBF来限制运动搜索的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：在多个双预测权重当中执行双预测运动搜索；在所述双预测运动搜索期间，确定是否已找到一对双预测权重以使得一译码块标志可被设定为零；响应于确定已找到一对双预测权重使得能够将一译码块标志设定为零，终止所述搜索；以及使用所找到的一对双预测权重来编码所述当前块。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：在多个双预测权重当中执行双预测运动搜索；在所述双预测运动搜索期间，确定是否已找到一对双预测权重，使得使用该对双预测权重进行的所述当前块的预测具有全零变换系数；响应于确定已找到一对双预测权重以使得使用该对双预测权重作出的所述当前块的预测具有全零变换系数，终止所述搜索；以及使用所找到的一对双预测权重来编码所述当前块。

使用跳过合并模式来限制运动搜索的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：在多个合并候选帧间预测模式当中执行第一帧间预测搜索，以识别用于所述当前块的预测的最佳帧间预测合并模式；确定所述最佳帧间预测合并模式是否为与一对不等的广义双预测权重相关联的跳过合并候选；在多个显式帧间预测模式当中执行第二帧间预测搜索，其中仅响应于确定所述最佳帧间预测合并模式不是与一对不等的广义双预测权重相关联的跳过合并候选而在多对不等的广义双预测权重上执行所述第二搜索；以及使用从所述第一或第二帧间预测搜索中选择的帧间预测模式来编码所述当前块。

在一些此类方法中，仅在使用帧间预测模式候选进行的关于所述当前块的预测具有全零变换系数的情况下，该帧间预测模式候选才是跳过合并模式候选。在一些方法中，响应于确定所述最佳帧间预测合并模式是与一对不等的广义双预测权重相关联的跳过合并候选，所述第二搜索包含使用至少所述一对不等的广义双预测权重在显式帧间预测模式上的搜索。在一些方法中，响应于确定所述最佳帧间预测合并模式是与一对不等的广义双预测权重相关联的跳过合并候选，所述第二搜索包含在排除了所述一对不等的广义双预测权重的显式帧间预测模式上进行搜索。

在运动搜索中使用失真度量的实施例。

在一些实施例中，提供了一种在比特流中对视频进行编码的方法。所述方法包含针对当前图片中的至少一个当前块：在运动估计阶段期间，计算关于双预测运动向量与双预测权重对的多个组合中的每一者的失真度量；基于所述失真度量，选择双预测运动向量及相关联的双预测权重对；使用所述选定双预测运动向量和相关联的双预测权重对，计算用于预测所述当前块的速率失真成本；至少部分基于所述速率失真成本，确定是否使用所述选定双预测运动向量和相关联的双预测权重对来编码所述当前块；以及基于所述确定，编码所述当前块。所述失真度量可以是例如绝对差之和或绝对变换差之和。

在一些此类实施例中，所述选定双预测运动向量和相关联的双预测权重对是仅针对其计算所述当前块的速率失真成本的双预测运动向量和相关联的双预测权重对。

在一些实施例中，提供一种对包括多个图片的视频进行译码的方法，所述多个图片包含当前图片、第一参考图片和第二参考图片，每一图片包括多个块。所述方法包含针对所述当前图片中的至少当前块：至少部分基于所述当前图片的质量度量，确定可用双预测权重对的数目；从所述确定数目的可用双预测权重对中，识别一权重对，所述识别的权重对包含较高权重和较低权重；确定所述第一和第二参考图片中的哪一者是较高质量参考图片以及哪一者是较低质量参考图片；以及将所述当前块预测为所述较高质量参考图片中的较高质量参考块和所述较低质量参考图片中的较低质量参考块的加权和，其中，所述较高质量参考块由所述较高权重加权，而所述较低质量参考块由所述较低权重加权。

译码比特流结构。

图12是示出一译码比特流结构的示例的示意图。译码比特流1300由数个NAL(网络抽象层)单元1301组成。NAL单元可以包含译码的样本数据(例如译码切片1306)、或者高级语法元数据，例如参数集数据、切片头部数据1305或补充增强信息数据1307(其可以被称为SEI消息)。参数集是含有基本语法元素的高级语法结构，所述基本语法元素可应用于多个比特流层(例如，视频参数集1302(VPS))，或可应用于一个层内的译码视频序列(例如，序列参数集1303(SPS))，或可应用于一个译码视频序列内的若干译码图片(例如，图片参数集1304(PPS))。所述参数集可以与视频比特流的译码图片一起发送，或者通过其它方式(包括使用可靠信道的带外传输、硬译码等)发送。切片头部1305也是高级语法结构，其可以包含一些图片相关信息，该信息相对较小或者仅与某些切片或图片类型相关。SEI消息1307携带解码过程可能不需要但可用于各种其它目的信息，例如图片输出定时或显示以及丢失检测和隐藏。

通信设备和系统。

图13是示出了通信系统的示例的示意图。该通信系统1400可以包括编码器1402、通信网络1404和解码器1406。所述编码器1402可以经由连接1408而与网络1404通信，该连接可以是有线连接或无线连接。所述编码器1402可类似于图1的基于块的视频编码器。编码器1402可包括单层编解码器(例如，图1)或多层编解码器(例如，图10)。例如，编码器1402可以类似于图9的具有图片级ILP支持的多层(例如，两层)可缩放译码系统。所述解码器1406可以经由连接1410而与网络1404通信，该连接可以是有线连接或无线连接。所述解码器1406可类似于图2的基于块的视频解码器。所述解码器1406可包括单层编解码器(例如，图2)或多层编解码器(例如，图11)。例如，所述解码器1406可以类似于图11的具有图片级ILP支持的多层(例如，两层)可缩放解码系统。

所述编码器1402和/或所述解码器1406可并入到各种各样的有线通信设备和/或无线发射/接收单元(WTRU)中，例如(但不限于)数字电视、无线广播系统、网络元件/终端、服务器(例如，内容或网络服务器(例如，例如超文本传送协议(HTTP)服务器))、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、数码相机、数字记录设备、视频游戏设备、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器和/或类似装置。

所述通信网络1404可以是合适类型的通信网络。例如，所述通信网络1404可以是向多个无线用户提供诸如语音、数据、视频、消息收发、广播等内容的多址系统。所述通信网络1404可以使多个无线用户能够通过共享包括无线带宽的系统资源来访问这样的内容。例如，所述通信网络1404可以采用一种或多种信道接入方法，例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)和/或类似方法。所述通信网络1404可以包括多个连接的通信网络。所述通信网络1404可包括因特网和/或一个或多个私有商业网络，诸如蜂窝网络、WiFi热点和/或因特网服务提供商(ISP)网络等。

图14是示例性WTRU的系统图。如图所示，该示例性WTRU 1500可以包括处理器1518、收发信机1520、发射/接收元件1522、扬声器/麦克风1524、小键盘或键盘1526、显示器/触摸板1528、不可移动存储器1530、可移动存储器1532、电源1534、全球定位系统(GPS)芯片组1536和/或其他周边设备1538。可以理解的是，所述WTRU 1500可以包括前述元件的任何子组合，同时保持与实施例一致。此外，其中结合了编码器(例如编码器100)和/或解码器(例如解码器200)的终端可以包括在这里参考图15的WTRU 1500所描述和描绘的一些或所有元件。

所述处理器1518可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、图形处理单元(GPU)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机等。所述处理器1518可以执行信号编码、数据处理、功率控制、输入/输出处理和/或任何其他使WTRU 1500能够在有线和/或无线环境中操作的功能。所述处理器1518可以耦合到所述收发信机1520，其可以耦合到所述发射/接收元件1522。虽然图14将所述处理器1518和所述收发信机1520描绘为单独的组件，但将了解，所述处理器1518和收发信机1520可一起集成在电子封装和/或芯片中。

所述发射/接收元件1522可经配置以经由空中接口1515将信号发射到另一终端和/或从另一终端接收信号。例如，在一个或多个实施例中，所述发射/接收元件1522可以是被配置成发射和/或接收RF信号的天线。在一个或多个实施例中，所述发射/接收元件1522可以是被配置为发射和/或接收例如IR、UV或可见光信号的发射器/检测器。在一个或多个实施例中，所述发射/接收元件1522可经配置以发射和/或接收RF及光信号这两者。将领会，所述发射/接收元件1522可被配置成传送和/或接收无线信号的任何组合。

此外，尽管所述发射/接收元件1522在图14中被描绘为单个元件，但是WTRU 1500可以包括任何数目的发射/接收元件1522。更具体地，所述WTRU 1500可以使用MIMO技术。因此，在一个实施方式中，所述WTRU 1500可以包括两个或更多个发射/接收元件1522(例如，多个天线)，用于通过空中接口1515发射和接收无线信号。

所述收发信机1520可以被配置为对要由发射/接收元件1522发射的信号进行调制和/或对由发射/接收元件1522接收的信号进行解调。如上所述，所述WTRU 1500可以具有多模式能力。因此，所述收发信机1520可以包括多个收发信机，用于使WTRU 1500能够经由多个RAT进行通信，例如UTRA和IEEE 802.11。

所述WTRU 1500的处理器1518可以耦合到扬声器/麦克风1524、键盘1526和/或显示器/触摸板1528(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)，并且可以从其接收用户输入数据。所述处理器1518还可以将用户数据输出到所述扬声器/麦克风1524、键盘1526和/或显示器/触摸板1528。另外，所述处理器1518可从任何类型的合适存储器访问信息且将数据存储于其中，所述存储器例如为不可移除存储器1530和/或可移除存储器1532。所述不可移动存储器1530可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其它类型的存储器存储设备。所述可移除存储器1532可以包括用户标识模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在一个或多个实施方式中，所述处理器1518可以从物理上不位于WTRU 1500上的存储器访问信息，并且将数据存储在该存储器中，例如该存储器在服务器或家用计算机(未示出)上。

所述处理器1518可以从电源1534接收功率，并且可以被配置成向WTRU 1500中的其他组件分配和/或控制所述功率。所述电源1534可以是用于为WTRU 1500供电的任何合适的设备。例如，所述电源1534可以包括一个或多个干电池(例如，镍镉、镍锌、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。

所述处理器1518可以耦合到GPS芯片组1536，该芯片组可以被配置成提供关于WTRU 1500的当前位置的位置信息(例如经度和纬度)。除了来自GPS芯片组1536的信息之外，或者作为其替代，WTRU 1500可以通过空中接口1515从终端(例如基站)接收位置信息，和/或基于从两个或更多个邻近基站接收的信号的定时来确定其位置。应当理解，WTRU1500可以通过任何适当的位置确定方法来获取位置信息，同时保持与实施例一致。

所述处理器1518还可以耦合到其他周边设备1538，其可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如，所述周边设备1538可包括加速计、定向传感器、运动传感器、接近传感器、电子罗盘、卫星收发信机、数字相机和/或视频记录器(例如，用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提头戴式耳机、

模块、调频(FM)无线电单元、以及诸如数字音乐播放器、媒体播放器、视频游戏播放器模块、因特网浏览器等软件模块。

作为示例，所述WTRU 1500可以被配置成传送和/或接收无线信号，并且可以包括用户设备(UE)、移动站、固定或移动用户单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、平板计算机、个人计算机、无线传感器、消费电子产品、或能够接收和处理压缩视频通信的任何其他终端。

所述WTRU 1500和/或通信网络(例如通信网络804)可以实施无线电技术，例如通用移动电信系统(UMTS)陆地无线电接入(UTRA)，其可以使用宽带CDMA(WCDMA)建立所述空中接口1515。WCDMA可以包括诸如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)之类的通信协议。HSPA可以包括高速下行链路分组接入(HSDPA)和/或高速上行链路分组接入(HSUPA)。所述WTRU 1500和/或通信网络(例如通信网络804)可以实施无线电技术，例如演进型UMTS陆地无线电接入(E-UTRA)，其可以使用长期演进(LTE)和/或高级LTE(LTE-A)来建立所述空中接口1515。

所述WTRU 1500和/或通信网络(例如通信网络804)可以实施无线电技术，例如IEEE 802.16(例如全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信系统(GSM)、GSM演进的增强数据速率(EDGE)、GSM EDGE(GERAN)等等。所述WTRU 1500和/或通信网络(例如通信网络804)可以实施无线电技术，例如IEEE 802.11、或IEEE 802.15等。

注意，所描述的实施例中的一个或多个的各种硬件元件被称为“模块”，其执行(即，运行、实行等)在此结合相应模块描述的各种功能。如本文所使用的，模块包括相关领域的技术人员认为适合于给定实施方式的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可执行用于执行被描述为由相应模块执行的一个或多个功能的指令，并且注意，这些指令可以采取硬件(即，硬连线的)指令、固件指令、和/或软件指令等的形式或包括它们，并且可以被存储在任何合适的非暂时性计算机可读介质或媒体中，其诸如通常被称为RAM、ROM等。

虽然在上文中描述了采用特定组合或顺序的特征和元素，但是本领域普通技术人员将会认识到，每一个特征或元素既可以单独使用，也可以与其他特征和元素进行任何组合来使用。此外，这里描述的方法可以在引入计算机可读介质中以供计算机或处理器运行的计算机程序、软件或固件中实施。计算机可读存储媒体的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、诸如内部硬盘和可移除盘之类的磁媒体、磁光媒体、以及诸如CD-ROM盘和数字多用途盘(DVD)的的光媒体。与软件关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任何主计算机中使用的射频收发信机。

38页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：选择性环路滤波下的图像编码的装置及方法

用于具有降低的译码复杂性的视频译码的广义双预测

相关技术

网友询问留言