一种实时视频通信中的数据编码方法及媒体终端设备

文档序号：1820079 发布日期：2021-11-09 浏览：14次 >En<

阅读说明：本技术 一种实时视频通信中的数据编码方法及媒体终端设备 (Data coding method in real-time video communication and media terminal equipment ) 是由钱晓炯周银沈伟伟项文于 2021-08-04 设计创作，主要内容包括：本发明涉及一种实时视频通信中的数据编码方法及媒体终端设备,其中方法包括预先保存编码器状态集合,实时视频通信会话开始后先使用编号为i的编码器状态运行t1秒,然后获取GTH、W、H、BW、ET和Cur,计算THmax[Cur]和THbw[Cur],然后计算编码器状态集合中THmax的集合和THbw的集合,进一步得到每个编码器状态的TH值,将GTH和每个编码器状态中的TH值逐个比较大小来更新Cur值,使用编号为Cur的编码器状态运行t2秒,然后重复执行上述步骤,直到实时视频通信会话结束。与现有技术相比,本发明采用混合编码方式,能够适应频繁变化的网络状态,同时发挥不同编码器不同优势,获得最大的信息传递收益和相对最低的网络或计算资源。(The invention relates to a data coding method in real-time video communication and media terminal equipment, wherein the method comprises the steps of saving an encoder state set in advance, operating for t1 seconds by using an encoder state with the number of i after a real-time video communication session starts, then acquiring GTH, W, H, BW, ET and Cur, calculating THmax [ Cur ] and THbw [ Cur ], then calculating the set of THmax and the set of THbw in the encoder state set, further acquiring the TH value of each encoder state, comparing the TH value of GTH and each encoder state one by one to update the Cur value, operating for t2 seconds by using the encoder state with the number of Cur, and then repeatedly executing the steps until the real-time video communication session ends. Compared with the prior art, the invention adopts a hybrid coding mode, can adapt to frequently changing network states, simultaneously exerts different advantages of different encoders, and obtains the maximum information transmission benefit and the relatively lowest network or computing resource.)

技术领域

本发明涉及一种实时视频通信中的数据编码方法及媒体终端设备。

背景技术

在实时视频通话的业务场景中，音视频数据所采用的编码规范有很多格式，包括H.263、H.264、H.265、H.266、VP8、VP9、AV1等等，不同编码格式所具备的压缩效率差异是很大的(比如H.263和H.266的压缩效率，最大可能相差10倍)；通常压缩效率越高的编码方式，复杂度也越高，计算能力也需要越大(同样比较H.263和H.266，算力需求可能相差100倍)。

即使是同一个编码格式比如H.264，不同的profile(编码器模式)所能带来的压缩效率和需要的计算力，相差也有几倍；同样，即便是相同的profile(编码器模式)，有的编码器比如H264，提供不同档的编码速度，其压缩效率和速度也会分别相差几倍和几十倍。

对于实时视频通话运行的终端设备，有的是手机，有的是PC，有的是嵌入式设备如盒子或手表，其算力差异也是几倍到上百倍。

由于实时视频通话的复杂性，为了保证基本互通外，通常不考虑编码器应用的组合，即不考虑最优解。具体的，现有的方案通常是基于静态的优先级配置，比如在终端事先配置好优先级，比如最先采用H.265对数据进行编码，然后采用H.264对数据进行编码，然后根据能力协商协议(RFC4566/RFC3254)进行协商，通过双方确定编解码类型。稍微优化一点的方案，考虑了设备性能的差异性，支持不对称协商，从而发挥低性能设备和高性能设备的不同特点，采用不同的编码和解码格式，然而当协商完成后，采用的编码格式依然是固定不变的，因此在实时运行过程中，既不会因为硬件设备温度过高等原因降频运行而有变化，也不会因为网络带宽的动态变化而有变化。因此，可以肯定的说，现有方案并没有在已知各种视频编解码能力的基础上，获得最优的处理方法。而如何基于现有设备算力支持的能力进行能力协商，依然是一个值得优化的问题。

发明内容

本发明所要解决的首要技术问题是针对上述现有技术提供一种能够适应频繁变化的网络状态、同时发挥不同编码器不同优势、从而获得最大的信息传递收益和相对最低的网络或计算资源的实时视频通信中的数据编码方法。

本发明进一步所要解决的技术问题是提供一种实时视频通话过程中数据编码能够适应频繁变化的网络状态、同时发挥不同编码器不同优势、从而获得最大的信息传递收益和相对最低的网络或计算资源的媒体终端设备。

本发明解决上述首要技术问题所采用的技术方案为：一种实时视频通信中的数据编码方法，其特征在于：预先保存编码器状态集合，编码器状态集合中的对象为编码器状态，编码器状态集合的个数为N，编码器状态为某编码器的配置状态，每个编码器状态包括的内容有：编号、编码器模式名称、RS、CR、THmax、THbw、TH和Certainty，其中RS表示编码器状态的相对速度，为预先设定常数；CR表示编码器状态的压缩率，为预先设定常数；THmax表示编码器状态的最大视频吞吐率；THbw表示基于当前可用网络带宽下所能达到的视频吞吐率，单位为bps；TH表示编码器状态能够做到的视频吞吐率，单位为bps；Certainty为确定性标记，表示对某编码器状态的最大吞吐率THmax是否经过测试确定，其取值为：unknown或presume或confirmed，其中unknown表示未知；presume表示通过RS推断，confirmed表示已实际测量确定；

然后通过如下步骤对实时视频通信中的数据进行编码：

步骤1、实时视频通信会话开始后，首先默认使用编号为i的编码器状态运行t1秒，然后进入步骤2；

步骤2、获取如下参数：GTH、W、H、BW、ET和Cur；

其中GTH为目标视频吞吐率，x为实时视频通信中需要传输的视频流个数，W[j]表示对应第j个视频流图像的宽度；H[j]表示对应第j个视频流图像的高度；GFPS为订阅的目标视频帧率，设YUV格式的视频每像素占1.5字节、每字节8bit，因此GTH单位为每秒像素比特位数，即bps；

W和H分别为编码图像宽度和高度，按当前实际编码的最大图像的宽度和高度给定；

ET为编码时长，为对应分辨率多帧图像的平均编码时长，为常数；

BW为当前估计的网络可用带宽，BW＝BWE-other\_bitrate，BWE为当前估算的网络带宽，other_bitrate为其它必须预留带宽；

Cur为当前使用的编码器状态的编号，Cur取值范围为1～N，Cur的初始值为i；

步骤3、计算得到当前编码器状态中的参数数据THmax[Cur]，并做确定性标记Certainty[Cur]为confirmed；

THmax[Cur]为编号为Cur的编码器状态中的参数THmax的值；THbw[Cur]为编号为Cur的编码器状态中的参数THbw的值；Certainty[Cur]为编号为Cur的编码器状态中的参数Certainty的值；

步骤4、计算编码器状态集合中Certainty为confirmed外，其余所有编码器状态中对应的最大视频吞吐率THmax的集合，并且设置Certainty为presume；

其中，t的取值范围为1～N；

步骤5、计算编码器状态集合所有编码器状态的THbw的值：

而其中

k取值范围为1～N；

步骤6、逐个比较编码器状态集合中每个编码器状态中的THmax和THbw，取THmax和THbw两者中较小的值，将得到的值赋值给对应编码器状态的TH；

步骤7、将步骤2得到的GTH和编码器状态集合中每个编码器状态中的TH值逐个比较大小：

如果GTH比所有编码器状态中的TH值都大，找到所有编码器状态中TH值最大的那个编码器状态，将该编码器状态的编号赋值给Cur；

如果所有编码器状态中的TH值有比GTH大的，将编码器状态中TH值比GTH大的编码器状态组成一个集合，称为临时编码器状态集合，在临时编码器状态集合中，每个编码器状态中TH均比GTH大，找到临时编码器状态集合中CR值最高的编码器状态，将该编码器状态的编号赋值给Cur；

步骤8、使用编号为Cur的编码器状态运行t2秒，然后返回步骤2，重复执行步骤2～步骤7，直到实时视频通信会话结束。

2、根据权利要求1所述的实时视频通信中的数据编码方法，其特征在于:编号为i的编码器状态中编码器模式名称为h264-veryfast，t1为2～5；t2为3～7。

3、根据权利要求1所述的实时视频通信中的数据编码方法，其特征在于:所述编码器状态集合中的编码器状态包括以下几个：

本发明解决上述进一步技术问题所采用的技术方案为：一种媒体终端设备，包括能与被叫方建立音视频通道、并负责音视频媒体数据的收发和编解码的媒体引擎模块，其特征在于：所述媒体引擎模块内集成有编码器状态策略选择模块，该编码器状态策略选择模块采用上述数据编码方法对实时视频通信中的数据进行编码。

与现有技术相比，本发明的优点在于：本发明的方法在已知各种软硬件视频编解码能力的基础上，根据实际场景中参与的多种关键变量参数，特别是能根据当前的网络状态，以及不同编码器状态的编解码和处理吞吐量信息的能力，采用混合编码方式，每间隔一段时间后，重新获取最优处理效果的编码器状态，然后使用最优编解码状态对通信数据进行编解码，能够适应不同的终端环境，且无需检测CPU占有率，适应性广；能够适应频繁变化的网络状态，同时发挥不同编码器不同优势，获得最大的信息传递收益和相对最低的网络或计算资源。

附图说明

图1为本发明实施例中实时视频通信中的数据编码方法的流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示的一种实时视频通信中的数据编码方法，首先预先保存编码器状态集合，编码器状态集合中的对象为编码器状态，编码器状态集合的个数为N，编码器状态为某编码器的配置状态，每个编码器状态包括的内容有：编号、编码器模式名称、RS、CR、THmax、THbw、TH和Certainty，其中RS表示编码器状态的相对速度，为预先设定常数；CR表示编码器状态的压缩率，为预先设定常数；THmax表示编码器状态的最大视频吞吐率，单位为bpsTHmax一开始是未知的，经过一段时间运行后可以测量得到，THmax的计算公式参加步骤3；THbw表示基于当前可用网络带宽下所能达到的视频吞吐率，单位为bps，THbw一开始也是未知的，经过一段时间运行后可以测量得到，THbw的计算公式参加步骤4；TH表示编码器状态能够做到的视频吞吐率，单位为bps，TH一开始也是未知的，经过一段时间运行后可以测量得到，TH的获取方式参加步骤6；Certainty为确定性标记，表示对某编码器状态的最大吞吐率THmax是否经过测试确定，其取值为：unknown或presume或confirmed，其中unknown表示未知；presume表示通过RS推断，confirmed表示已实际测量确定；

编码器模式集合内容举例如下：

编号	编码器模式名称	RS	CR	THmax	THbw	TH	Certainty
								1	h264-ultrafast	1	165
2	h264-superfast	0.6	276
								3	h264-veryfast	0.5	331
4	h264-faster	0.3	368
								5	h264-fast	0.2	415
6	h264-medium	0.1	442
								7	av1-ultrafast	0.25	737
8	av1-superfast	0.2	829
								9	av1-veryfast	0.1	921
10	av1-fast	0.05	950
								11	iOS-HW-HEVC	0.9	400

每个编码器状态都包含多个属性，包括编号、编码器模式名称、RS、CR、THmax、THbw、TH和Certainty，把它对象化存储到一个数组，我们称之为“编码器状态集合”；

然后通过如下步骤对实时视频通信中的数据进行编码：

步骤1、实时视频通信会话开始后，首先默认使用编号为i的编码器状态运行t1秒，然后进入步骤2；本实施例中，i＝3，对应编码器状态中编码器模式名称为h264-veryfast，t1为2～5；

步骤2、获取如下参数：GTH、W、H、BW、ET和Cur；

其中GTH为目标视频吞吐率，x为实时视频通信中需要传输的视频流个数，W[j]表示对应第j个视频流图像的宽度；H[j]表示对应第j个视频流图像的高度；GFPS为订阅的目标视频帧率；

W和H分别为编码图像宽度和高度，按当前实际编码的最大图像的宽度和高度给定；

ET为编码时长，为对应分辨率多帧图像的平均编码时长，为常数；

BW为当前估计的网络可用带宽，BW＝BWE-other\_bitrate，BWE为当前估算的网络带宽，other_bitrate为其它必须预留带宽；

Cur为当前使用的编码器状态的编号，Cur取值范围为1～N，Cur的初始值为i；

步骤3、计算得到当前编码器状态中的参数数据THmax[Cur]，并做确定性标记Certainty[Cur]为confirmed；

步骤4、计算编码器状态集合中Certainty为confirmed外，其余所有编码器状态中对应的最大视频吞吐率THmax的集合，并且设置Certainty为presume；

其中，t的取值范围为1～N；

步骤5、计算编码器状态集合所有编码器状态的THbw的值：

而其中

k取值范围为1～N；

步骤6、逐个比较编码器状态集合中每个编码器状态中的THmax和THbw，取THmax和THbw两者中较小的值，将得到的值赋值给对应编码器状态的TH；

步骤7、将步骤2得到的GTH和编码器状态集合中每个编码器状态中的TH值逐个比较大小：

如果GTH比所有编码器状态中的TH值都大，找到所有编码器状态中TH值最大的那个编码器状态，将该编码器状态的编号赋值给Cur；

步骤8、使用编号为Cur的编码器状态运行t2秒，然后返回步骤2，重复执行步骤2～步骤7，直到实时视频通信会话结束；t2为3～7，优选5秒。

本发明实施例还提供一种媒体终端设备，包括能与被叫方建立音视频通道、并负责音视频媒体数据的收发和编解码的媒体引擎模块，媒体引擎模块内集成有编码器状态策略选择模块，该编码器状态策略选择模块采用上述数据编码方法对实时视频通信中的数据进行编码。

11页详细技术资料下载

一种实时视频通信中的数据编码方法及媒体终端设备

相关技术

网友询问留言