一种调制解调器语音编解码器的选择方法和存储介质

文档序号:1743439 发布日期:2019-11-26 浏览:32次 >En<

阅读说明:本技术 一种调制解调器语音编解码器的选择方法和存储介质 (A kind of selection method and storage medium of modem audio coder &amp; decoder (codec) ) 是由 彭丁聪 于 2019-08-29 设计创作,主要内容包括:本发明公开调制解调器语音编解码器的选择方法,系统和存储介质,该方法包括:S1:从BP侧和AP侧选择用于形成训练数据的多个特征参数,并设定每个所述特征参数的取值范围;S2:在所述取值范围内,选取每个所述特征参数的值,并由多个所述特征参数的值形成特征向量X&lt;Sub&gt;i&lt;/Sub&gt;;选择与多个所述特征参数的值相匹配的至少一个语音编解码器,并由所述至少一个语音编解码器形成目标向量Y&lt;Sub&gt;i&lt;/Sub&gt;;获得由所述特征向量X&lt;Sub&gt;i&lt;/Sub&gt;和所述目标向量Y&lt;Sub&gt;i&lt;/Sub&gt;形成的映射关系;S3:重复步骤S2,并获得由多组所述映射关系所形成的所述训练数据;S4:基于所述训练数据,通过训练,获得经过训练的语音编解码分类器;S5:利用经过训练的所述语音编解码分类器,筛选与当前网络相匹配的语音编解码器。(The present invention discloses the selection method of modem audio coder &amp; decoder (codec), system and storage medium, this method comprises: S1: being used to form multiple characteristic parameters of training data from the side BP and the selection of the side AP, and sets the value range of each characteristic parameter;S2: in the value range, the value of each characteristic parameter is chosen, and feature vector, X is formed by the value of multiple characteristic parameters i ;At least one audio coder &amp; decoder (codec) that the value of selection and multiple characteristic parameters matches, and object vector Y is formed by least one described audio coder &amp; decoder (codec) i ;It obtains by described eigenvector X i With the object vector Y i The mapping relations of formation;S3: repeating step S2, and obtains the mapping relations as described in multiple groups and be formed by the training data;S4: trained encoding and decoding speech classifier is obtained by training based on the training data;S5: the trained encoding and decoding speech classifier, the audio coder &amp; decoder (codec) that screening matches with current network are utilized.)

一种调制解调器语音编解码器的选择方法和存储介质

技术领域

本发明涉及语音编解码器的选择技术,尤其涉及一种调制解调器语音编解码器的选择方法和存储介质。

背景技术

在移动网络下进行语音通话,通话质量与当前网络的信号环境密切相关。尤其是在高速移动的情况下,手机所处的信号环境不断变化,往往造成语音帧的抖动,包括丢包或延迟,经常出现杂音,静音、掉话的问题。在诸如2G、3G、4G、5G等不同的网络模式下,系统带宽不同,支持的峰值上、下行速率也有差异,语音数据帧要在不同网络模式的链路上传输,因此需要选择合适的调制解调器语音编解码器以保障通话质量。传统的方法是随着网络模式的改变,移动端和核心网之间通过信令协商来改变语音传输过程中使用的编解码器,

此外,现有专利号为US7,453,908B2,发明名称为“一种压缩器/解压缩器(编解码器)选择装置和方法”的美国专利提供了如下解决方案:一种压缩器/解压缩器(编解码器)选择装置,用于根据互联网通信系统选择编解码器,该编解码器选择装置包括:性能分析器,用于分析当前互联网通信系统的性能,并相应地输出多个环境参数;存储单元,用于存储通过支持向量机(Support Vector Machine,SVM)计算获得的多个学***面,并且超平面将高维特征空间划分为多个编解码器区域;以及选择单元,用于执行SVM计算,以通过确定包括由环境参数映射的高维空间中的功能点的编解码器区域来选择适合于当前互联网通信系统的编解码器。

因此,亟需一种帮助用户主动控制终端可同时运行的进程的数量的方法,以提高用户的终端使用体验。

发明内容

为了适应不同网络模式的系统带宽以及上下行速率,有必要对个人终端的调制解调器(modem)基带处理系统的语音编解码器,基于当前调制解调器系统参数做动态调整,在兼顾编码效率和语音质量两个指标的情况下,选择最合适当前网络模式的语音编解码器,以对原始语音数据进行编码成帧,减少语音传输抖动,同时不降低通话质量。

本发明的目的,在于提供一种调制解调器语音编解码器的选择方法,以在个人终端的语音通话过程中,提供适合当前网络模式的语音编解码器,该方法包括以下步骤:

S1:从BP侧和AP侧选择用于形成训练数据的多个特征参数,并设定每个所述特征参数的取值范围;

S2:在所述取值范围内,选取每个所述特征参数的值,并由多个所述特征参数的值形成特征向量Xi;选择与多个所述特征参数的值相匹配的至少一个语音编解码器,并由所述至少一个语音编解码器形成目标向量Yi;获得由所述特征向量Xi和所述目标向量Yi形成的映射关系;

S3:重复步骤S2,并获得由多组所述映射关系所形成的所述训练数据;

S4:基于所述训练数据,通过训练,获得经过训练的语音编解码分类器;

S5:利用经过训练的所述语音编解码分类器,筛选与当前网络相匹配的语音编解码器。

优选的,所述步骤S4具体包括:

S41:基于所述训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器和第一比特率预测回归器;

S42:在测试网络下,通过所述第一语音编解码分类器和所述第一比特率预测回归器,分别预测出对应的第一语音编解码器和第一比特率;

S43:基于所述测试网络的类型,对所述第一语音编解码器和所述第一比特率进行匹配测试,判断所述第一语音编解码器和所述第一比特率是否可通过所述匹配测试;

S44:如果是,则将所述第一语音编解码分类器作为经过训练的语音编解码分类器;

S45:如果否,则通过Ada-Boost方法提升训练所述第一语音编解码分类器,获得经过提升训练的第二语音编解码分类器,并将所述第二语音编解码分类器作为经过训练的语音编解码分类器。

优选的,所述步骤S4具体包括:

S41:基于所述训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器和第一比特率预测回归器;

S42:在测试网络下,通过所述第一语音编解码分类器和所述第一比特率预测回归器,分别预测出对应的第一语音编解码器和第一比特率;

S43:基础所述测试网络的类型,对所述第一语音编解码器和所述第一比特率进行匹配测试,判断所述第一语音编解码器和所述第一比特率是否可通过所述匹配测试;

S44’:如果是,则通过综测仪提供测试数据,对所述第一语音编解码分类器进行微调处理,获得经过微调的第三语音编解码分类器,并将所述第三语音编解码分类器作为经过训练的语音编解码分类器;

S45’:如果否,则通过Ada-Boost方法提升训练所述第一语音编解码分类器,获得经过提升训练的第二语音编解码分类器,再通过综测仪提供测试数据,对所述第二语音编解码分类器进行微调处理,获得经过微调处理的第四语音编解码分类器,并将所述第四语音编解码分类器作为经过训练的语音编解码分类器。

优选的,所述步骤S4具体包括:

S41”:基于所述训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器;

S42”:通过综测仪提供测试数据,对所述第一语音编解码分类器进行微调处理,获得经过微调的第五语音编解码分类器,并将所述第五语音编解码分类器作为经过训练的语音编解码分类器。

优选的,所述步骤S4还包括:基于所述训练数据,通过训练,获得经过训练的比特率预测回归器;

所述步骤S5具体包括:

S51:在当前网络下,利用经过训练的所述语音编解码分类器和所述比特率预测回归器,分别预测出对应的语音编解码器和比特率;

S52:基于所述当前网络的类型,对预测出的语音编解码器和所述比特率进行匹配测试,判断预测出的语音编解码器和所述比特率是否可通过所述匹配测试;

S53:如果是,则预测出的语音编解码器作为选择出的与当前网络相匹配的语音编解码器;

S54:如果否,则使用个人终端默认的语音编解码器。

优选的:所述匹配测试包括以下步骤:

设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配;

判断[相关的网络类型,相关的比特率,相关的语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较相关的网络类型与所述网络类型是否相同,相关的比特率是否在所述比特率范围内,相关的语音编解码器是否属于所述语音编解码器集合。

优选的,所述步骤S4还包括:基于所述训练数据,通过训练,获得经过训练的比特率预测回归器;

所述步骤S5具体包括:

S51:在当前网络下,利用经过训练的所述语音编解码分类器和所述比特率预测回归器,分别预测出对应的语音编解码器和比特率;

S52’:设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配;

S53’:判断[当前网络类型,所述比特率,所述语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较当前网络类型与所述网络类型是否相同,所述比特率是否在所述比特率范围内,所述语音编解码器是否属于所述语音编解码器集合;

S54’:如果是,则所述语音编解码器作为选择出的与当前网络相匹配的语音编解码器;

S55’:如果否,则从与所述当前网络类型和所述比特率相匹配的映射关系中的语音编解码器集合中,任意选择一个语音编解码器。

优选的,所述微调处理包括以下步骤:

通过综测仪,获得测试数据;

通过综测仪模拟实网环境,获得实网环境下的测试数据;

对所述测试数据进行预处理;

基于经过预处理的所述测试数据,对相关的语音编解码分类器进行微调。

优选的,所述特征参数包括下列各项中的至少一项:

BP侧物理层(PHY)的SNR,RSCP,RSSI,Ec/Io,媒体接入控制层(MAC)的吞吐率参数,无线链路控制层(RLC)的吞吐率参数,分组数据汇聚协议层(PDCP)的吞吐率参数,无线资源层(RR)的信道请求建立原因参数,无线资源控制层(RRC)的状态参数,非接入层(NAS)的移动性管理实体(MME)的状态参数和网络侧反馈的调度参数;

AP侧的带宽,其是针对包服务(PS)语音,在网络层(TCP/IP)基于往返延时(RTT)和丢包率提取SCTP SR包和RR包中的参数,运行带宽估计算法而估算出的带宽。

优选的,所述语音编解码器集合包括下列各项中的至少一项:

HR,FR,EFR,AMR-NB,AMR-WB,Opus,EVRC,QCELP,AMR-WB+。

本发明还提供一种用于选择调制解调器语音编解码器的计算机系统,包括处理器和存储器,所述处理器用于执行所述存储器中存储的用于实现上述任意一项所述方法的计算机可读程序。

本发明还提供一种计算机可读的存储介质,存储有用于实现上述任意一项方法的计算机可读程序。

与现有技术相比,本发明具有如下优点或有益效果:

1.调制解调器(modem)专家设计模拟程序生成训练数据,弥补了训练数据的不足,同时使用了专家的先验知识,使得生成的训练数据具有代表性。

2.通过匹配测试以及Ada-Boost方法等对训练出的模型进行测试和提升,在降低模型偏差的同时也减少其方差,使得预测结果保持可靠的精度和平滑性。

3.实验室综测仪器模拟了实网环境,通过收集并使用实验室综测数据对模型进行微调,使得基于模拟程序生成的训练数据,训练出来的模型对噪声不敏感,不容易受噪声数据的误导,训练出的模型更适用于实网环境。

4.本发明通过设计AP、BP协议栈多层参数作为输入,通过Ada-boost深度学习的方法训练出语音编解码分类器和比特率预测回归器,来指导编解码器的选择,此方法是一种端到端的方法且更具有扩展性,特征向量到目标向量的映射关系,完全由训练数据和深度学习模型决定,对特征参数维度没有限制。

附图说明

通过结合附图阅读下文示例性实施例的详细描述可更好地理解本发明的保护范围,其中所包括的附图是:

图1为本发明实施例的调制解调器语音编解码器的选择方法的流程图;

图2为本发明实施例一的获得经过训练的语音编解码分类器的流程图;

图3为本发明实施例二的获得经过训练的语音编解码分类器的流程图;

图4为本发明实施例三的获得经过训练的语音编解码分类器的流程图;

图5为本发明实施例四的筛选与当前网络相匹配的语音编解码器的流程图;

图6为本发明实施例五的筛选与当前网络相匹配的语音编解码器的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图以及实施例来详细说明本发明的实施方案,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。

实施例一

本发明提供的一种调制解调器语音编解码器的选择方法,在本实施例中,该方法应用于个人终端。图1为本发明实施例的调制解调器语音编解码器的选择方法的流程图,以下结合图1对本方法的每个步骤进行详细说明。如图1所示,该方法主要包括以下步骤:

S1:从BP侧和AP侧选择用于形成训练数据的多个特征参数,并设定每个所述特征参数的取值范围。

具体的,特征参数包括:基带处理器(Base-Band Processor,BP)侧物理层(Physical Layer,PHY)的信噪比(Signal to Noise Ratio/Signal to Interferenceplus Noise Ratio,SNR/SINR),接收信号信道功率(Receive Signal Channel Power,RSCP),接收信号强度指标(Received Signal Strength Indication,RSSI),基准信号接收功率(Reference Signal Receiving Power,RSRP),基准信号接收质量(Reference SignalReceiving Quality,RSRQ),码片能量与接收到的总功率的比值(Ec/Io),媒体接入控制层(Media Access Control Layer,MAC)的吞吐率参数,无线链路控制层(Radio linkControl Layer,RLC)的吞吐率参数,分组数据汇聚协议层(Packet Data ConvergenceProtocol Layer,PDCP)的吞吐率参数,无线资源层(Radio Resource Management Layer,RRM)的信道请求建立原因参数,无线资源控制层(Radio Resource Control Layer,RRC)的状态参数,非接入层(Non-Access Stratum,NAS)的移动性管理实体(Mobility ManagementEntity,MME)的状态参数和网络侧反馈的调度参数;以及应用处理器(ApplicationProcessor,AP)侧的带宽,其中针对包服务(Packet Service,PS)语音,在网络层(TCP/IP)基于往返延时(Round-Trip Time,RTT)和丢包率提取流控制传输协议(Stream ControlTransmission Protocol,SCTP)状态报告SR包和RR包中的参数,运行带宽估计算法,估算所述带宽。另外,其中RSCP为信号强度指标,RSSI反应当前网络信号覆盖水平,不代表信号质量,Ec/Io反应手机导频信号的质量。

在本实施例中,详细的特征参数及其取值范围,请参见表1。

表1选择的特征参数及其取值范围等信息表

S2:在取值范围内,选取每个特征参数的值,并由多个特征参数的值形成特征向量Xi;选择与多个特征参数的值相匹配的至少一个语音编解码器,并由该至少一个语音编解码器形成目标向量Yi;获得由特征向量Xi和目标向量Yi形成的映射关系。

其中,特征向量Xi可包括{X1,X2,X3......Xn...},每个特征分量的值,例如X1,可在步骤1中所提及的特征参数的取值范围内选取,而Yi则表示与该组特征向量Xi{X1,X2,X3......Xn...}相匹配的一组语音编码器{Y1,Y2,.....Yn...}。

在本实施例中,还可包括如下步骤:选择与多个特征参数的值相匹配的语音编解码器所在层的比特率,并由比特率形成目标向量Yi,进而获得由特征向量Xi和由比特率形成的目标向量Yi形成的映射关系。

S3:重复步骤S2,并获得由多组映射关系所形成的训练数据。

在步骤S1-S3中,特征参数的选择,特征参数的取值范围及映射关系可由调制解调器(modem)专家选定及搭配,以形成训练数据,弥补了训练数据的不足,由于使用了专家的先验知识,使得生成的训练数据具有代表性。

下面给出本实施例所选取的Xi和Yi映射关系构造示意表,如表2所示。

表2特征向量Xi和目标向量Yi的映射关系构造表

不同网络环境用到的参数也不尽相同。在表2中,至少形成了4组映射关系,分别为:最后第二行Yi对应的语音编解码器AMR-WB+与Xi第一组取值列的各特征参数的值形成的特征向量Xi形成第一组映射关系;最后第二行Yi对应的语音编解码器HR与Xi第二组取值列的各特征参数的值形成的特征向量Xi形成第二组映射关系;最后第一行Yi对应的比特率1020Mbps与Xi第一组取值列的各特征参数的值形成的特征向量Xi形成第三组映射关系;最后第一行Yi对应的比特率150Mbps与Xi第二组取值列的各特征参数的值形成的特征向量Xi形成第四组映射关系,在本实施例中,选取并形成足够量的Xi和Yi的映射关系,进而形成训练数据。

S4:基于训练数据,通过训练,获得经过训练的语音编解码分类器。

图2为本发明实施例一的获得经过训练的语音编解码分类器的流程图。如图2所示,在本实施例中,步骤S4具体包括如下步骤:

S41:基于训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器和第一比特率预测回归器;

其中,初步训练用到的方法可以为用Ada-Boost方法训练第一语音编解码器,以及使用GBDT方法训练第一比特率预测回归器。当然,也可以使用其他模型训练方法。

S42:在测试网络下,通过第一语音编解码分类器和第一比特率预测回归器,分别预测出对应的第一语音编解码器和第一比特率。

其中,第一语音编解码分类器和第一比特率预测回归器的输入值为测试网络BP侧和AP侧的特征参数的值。测试网络可为实验室模式或者实际运营商的2G,3G,4G,5G,6G网络。也就是说,可以在不同模式的测试网络下,预测出匹配该网络的语音编码器和比特率。

S43:基于测试网络的类型,对第一语音编解码器和第一比特率进行匹配测试,判断第一语音编解码器和第一比特率是否可通过匹配测试;

其中,匹配测试具体为:设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配;判断[测试网络类型,所述第一比特率,第一语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较相关的网络类型与所述网络类型是否相同,相关的比特率是否在所述比特率范围内,相关的语音编解码器是否属于所述语音编解码器集合。

在本实施例中,该映射表可为:

[GERAN,[0,50kbps],(HR,FR,EFR)]

[UTRAN,[0,100kbps],(AMR-NB,AMR-WB,Opus)]

[CDMA2000,[0,100kbps],(QCELP,EVRC)]

[EUTRAN,[0,200kbps],(AMR-NB,AMR-WB,AMR-WB+,Opus)]

[xxx,xxx,xxx]....

其中,GERAN为GSM系统无线接入网(Gsm Edge Radio Access Network),UTRAN为UMTS系统陆地无线接入网(UMTS Terrestrial Radio Access Network),CDMA200为码分多址(Code Division Multiple Access,CDMA)系统无线接入网,EUTRAN为4G系统无线接入网,基于UMTS系统演化。

例如,如果测试网络为GERAN,预测出第一比特率为30kbps,第一语音编解码器是HR,通过对比该映射表,则表示第一语音编解码器和第一比特率通过了匹配测试;而如果在GERAN网络下,如果预测出第一比特率为30kbps,第一语音编解码器是AMR-NB,通过对比该映射表,则表示第一语音编解码器和第一比特率没有通过匹配测试。

匹配测试的目的是:预测出来的语音编解码器应该同当前所在网络模式兼容,比如2G的编解码器可以用在3G、4G网络下,但3G、4G网络高比特率编解码器不适用与2G网络环境下。在本实施例中,通过匹配测试以及Ada-Boost方法,GBDT方法对模型(第一语音编解码分类器和所述第一比特率预测回归器)进行训练和约束,在降低模型偏差的同时也减少其方差,使得预测结果保持可靠的精度和平滑性。

S44:如果是,则将第一语音编解码分类器作为经过训练的语音编解码分类器;

S45:如果否,则通过Ada-Boost方法提升训练第一语音编解码分类器,获得经过提升训练的第二语音编解码分类器,并将第二语音编解码分类器作为经过训练的语音编解码分类器。

其中,Ada-Boost方法为常用且有效的机器学习集成学习算法,Boost方式是一种将弱学习器提升为强学习器的集成学习算法,一般有三种应用方式:Ada-Boost自适应增强分类器,GBDT增强回归树,XGBoost提升树。Boost方式会对训练样本设置不同权重,不断的对之前学到的模型做提升,之前的模型有可能没有对所有的训练实例都分类正确,这时候Boost方法就会让下一次的训练更多的考虑这个错分类的实例。Boost的每一次迭代可以看成是生成了一个新模型,因为每一次迭代都改变了模型的参数。

S5:利用经过训练的语音编解码分类器,筛选与当前网络相匹配的语音编解码器。

当前网络是指个人终端当前所应用的网络,可为实际运营商的2G,3G,4G,5G,6G网络。编解码分类器的输入为当前网络的相关特征参数。可参考表1。

实施例二

在本实施例中,在实施例一基础上,步骤S4中还包括利用综测仪提供测试数据,对实施例一种获得的语音编解码分类器进行微调的过程,以防止训练数据的过拟合而影响训练结果。图3为本发明实施例二的获得经过训练的语音编解码分类器的流程图。如图3所示,步骤S4具体包括:

S41:基于训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器和第一比特率预测回归器;

S42:在测试网络下,通过第一语音编解码分类器和第一比特率预测回归器,分别预测出对应的第一语音编解码器和第一比特率;

S43:基于测试网络的类型,对第一语音编解码器和第一比特率进行匹配测试,判断第一语音编解码器和第一比特率是否可通过匹配测试;

S44’:如果是,则通过综测仪提供测试数据,对第一语音编解码分类器进行微调处理,获得经过微调的第三语音编解码分类器,并将第三语音编解码分类器作为经过训练的语音编解码分类器;

其中,所述微调处理包括以下步骤:

通过综测仪,获得测试数据;通过综测仪模拟实网环境,获得实网环境下的测试数据;对所述测试数据进行预处理;基于经过预处理的所述测试数据,对相关的语音编解码分类器进行微调。

S45’:如果否,则通过Ada-Boost方法提升训练第一语音编解码分类器,获得经过提升训练的第二语音编解码分类器,再通过综测仪提供测试数据,对第二语音编解码分类器进行微调处理,获得经过微调处理的第四语音编解码分类器,并将第四语音编解码分类器作为经过训练的语音编解码分类器。

实施例三

在本实施例中,与实施例二不同的是,步骤S4中没有包含匹配测试的过程,但也同样达到了防止训练数据的过拟合的效果。图4为本发明实施例三的获得经过训练的语音编解码分类器的流程图。如图4所示,步骤S4具体包括:

S41”:基于训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器;

S42”:通过综测仪提供测试数据,对第一语音编解码分类器进行微调处理,获得经过微调的第五语音编解码分类器,并将第五语音编解码分类器作为经过训练的语音编解码分类器。

实施例四

在本实施例中,与实施例一不同的是,步骤S4和S5稍有变化,其中步骤S5中包含了匹配测试的过程,进一步验证步骤4获得的语音编解码分类器是否可选择出适合当前网络的语音编解码器。在本实施例中,步骤S4具体包括:基于所述训练数据,通过训练,获得经过训练的语音编解码分类器和比特率预测回归器。

在该训练过程中,可包含对经过初步训练的语音编解码分类器和比特率预测回归器进行匹配测试和提升的过程,则使用Ada-Boost算法提升训练语音编解码分类器,使用梯度提升决策树(Gradient Boosted Decision Tree,GBDT)算法提升训练比特率预测回归器。当然也可进一步对获得的语音编解码分类器和比特率预测回归器利用综测仪提供测试数据,进行微调。

图5为本发明实施例四的筛选与当前网络相匹配的语音编解码器的流程图。如图5所示,在本实施例中,步骤S5具体包括:

S51:在当前网络下,利用经过训练的语音编解码分类器和比特率预测回归器,分别预测出对应的语音编解码器和比特率;

其中,语音编解码分类器和比特率预测回归器的输入值可为当前网络BP侧和AP侧的特征参数的值。当前网络可为实际运营商的2G,3G,4G,5G,6G网络。

在本实施例中,所述语音编解码分类器和所述比特率预测回归器可认为是经过了匹配测试,提升和微调的过程。

S52:基于所述当前网络的类型,对语音编解码器和比特率进行匹配测试,判断语音编解码器和比特率是否可通过匹配测试;

其中,匹配测试具体为:设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配,该映射表与步骤S43中的映射表可相同。

判断[当前网络类型,比特率,语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较当前网络类型与所述网络类型是否相同,所述比特率是否在所述比特率范围内,所述语音编解码器是否属于所述语音编解码器集合。

S53:如果是,则该语音编解码器作为选择出的与当前网络相匹配的语音编解码器;

S54:如果否,则使用个人终端默认的语音编解码器。

实施例五

在本实施例中,与实施例四不同的是,步骤S5稍有变化,当匹配测试结果为负面的情况下,本实施例给出了不同的解决方案。图6为本发明实施例五的筛选与当前网络相匹配的语音编解码器的流程图,如图6所示,在本实施例中,步骤S5具体包括:

S51:在当前网络下,利用经过训练的语音编解码分类器和比特率预测回归器,分别预测出对应的语音编解码器和比特率;

S52’:设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中网络类型,比特率范围和语音编解码器集合相匹配;

该映射表可参考实施例一匹配测试中的映射表。

[GERAN,[0,50kbps],(HR,FR,EFR)]

[UTRAN,[0,100kbps],(AMR-NB,AMR-WB,Opus)]

[CDMA2000,[0,100kbps],(QCELP,EVRC)]

[EUTRAN,[0,200kbps],(AMR-NB,AMR-WB,AMR-WB+,Opus)]

[xxx,xxx,xxx]....

S53’:判断[当前网络类型,所述比特率,所述语音编解码器]是否匹配映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较当前网络类型与所述网络类型是否相同,所述比特率是否在所述比特率范围内,所述语音编解码器是否属于所述语音编解码器集合;

在本实施例中,如果当前网络为EUTRAN,如果预测出的比特率为150kbps,语音编解码器是AMR-NB,通过对比该映射表,则得出语音编解码器和比特率通过了匹配测试;而如果在EUTRAN网络下,如果预测出比特率为250kbps,第一语音编解码器是EVRC,通过对比该映射表,则得出语音编解码器和比特率没有通过匹配测试。

S54’:如果是,则语音编解码器作为选择出的与当前网络相匹配的语音编解码器;

S55’:如果否,则从与当前网络类型和比特率相匹配的映射关系中的语音编解码器集合中,任意选择一个语音编解码器。

例如,如果当前网络为EUTRAN,预测出的比特率为250kbps,则从映射关系[EUTRAN,[0,200kbps],(AMR-NB,AMR-WB,AMR-WB+,Opus)]中的(AMR-NB,AMR-WB,AMR-WB+,Opus),选择AMR-WB作为语音解码器,以匹配当前的EUTRAN网络。

下面,综合上述各种本发明的实施例,给出本发明的最佳实施例:

S1:从BP侧和AP侧选择用于形成训练数据的多个特征参数,并设定每个所述特征参数的取值范围。

S2:在所述取值范围内,选取每个所述特征参数的值,并由多个所述特征参数的值形成特征向量Xi;选择与多个所述特征参数的值相匹配的至少一个语音编解码器,并由所述至少一个语音编解码器形成目标向量Yi;获得由所述特征向量Xi和所述目标向量Yi形成的映射关系;

S3:重复步骤S2,并获得由多组所述映射关系所形成的所述训练数据;

S4:基于所述训练数据,通过训练,获得经过训练的语音编解码分类器;

在该步骤中,具体可包含:

S41:基于所述训练数据,通过初步训练,获取经过初步训练的第一语音编解码分类器和第一比特率预测回归器;

S42:在测试网络下,通过所述第一语音编解码分类器和所述第一比特率预测回归器,分别预测出对应的第一语音编解码器和第一比特率;

S43:基础所述测试网络的类型,对所述第一语音编解码器和所述第一比特率进行匹配测试,判断所述第一语音编解码器和所述第一比特率是否可通过所述匹配测试;

所述匹配测试包括以下步骤:

设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配;

判断[测试网络类型,第一比特率,第一语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较相关的网络类型与所述网络类型是否相同,相关的比特率是否在所述比特率范围内,相关的语音编解码器是否属于所述语音编解码器集合。

S44’:如果是,则通过综测仪提供测试数据,对所述第一语音编解码分类器和第一比特率预测回归器进行微调处理,获得经过微调的第三语音编解码分类器和第三比特率,并将所述第三语音编解码分类器作为经过训练的语音编解码分类器;

S45’:如果否,则通过Ada-Boost方法提升训练所述第一语音编解码分类器和第一比特率预测回归器,获得经过提升训练的第二语音编解码分类器和第二比特率预测回归器,再通过综测仪提供测试数据,对所述第二语音编解码分类器和第二比特率预测回归器进行微调处理,获得经过微调处理的第四语音编解码分类器和第四比特率预测回归器,并将所述第四语音编解码分类器作为经过训练的语音编解码分类器。

其中,所述微调处理包括以下步骤:

通过综测仪,获得测试数据;

通过综测仪模拟实网环境,获得实网环境下的测试数据;

对所述测试数据进行预处理;

基于经过预处理的所述测试数据,对相关的语音编解码分类器进行微调。

S5:利用经过训练的所述语音编解码分类器,筛选与当前网络相匹配的语音编解码器。具体包括:

S51:在当前网络下,利用经过训练的所述语音编解码分类器和所述比特率预测回归器,分别预测出对应的语音编解码器和比特率;

在本实施例中,所述语音编解码分类器和所述比特率预测回归器可以是第四语音编解码分类器和第四比特率预测回归器。

S52’:设置包含多组[网络类型,比特率范围,语音编解码器集合]的映射关系的映射表,其中所述网络类型,比特率范围和语音编解码器集合相匹配;

S53’:判断[当前网络类型,所述比特率,所述语音编解码器]是否匹配所述映射表中的某组[网络类型,比特率范围,语音编解码器集合]映射关系,其中包括分别比较当前网络类型与所述网络类型是否相同,所述比特率是否在所述比特率范围内,所述语音编解码器是否属于所述语音编解码器集合;

S54’:如果是,则所述语音编解码器作为选择出的与当前网络相匹配的语音编解码器;

S55’:如果否,则从与所述当前网络类型和所述比特率相匹配的映射关系中的语音编解码器集合中,任意选择一个语音编解码器。

经过上述各实施例筛选出的适合当前网络的语音解码器后,还可包含对该语音解码器进行初始化的过程,其中,利用到了通过上述实施例中各种方法获得的,适应当前网络的的,且相互对应的语音编解码分类器和比特率预测回归器。通过所述语音编解码分类器和比特率预测回归器,分别预测出语音编解码器和比特率;其次,形成包含若干2nkbps的集合,n为大于1的正整数;而后,将所述集合中与比特率的值最接近的值赋值给比特率参数,并以所述比特率参数初始化所述语音编解码器,并获得经过初始化的与当前网络相匹配的语音编解码器。

其中,2nkbps的集合可为[4kbps,8kbps,…,16kbsp,…,32kbps,…,64kbps,....],如果预测出的比特率为30kbps,则将32kbps值赋值给比特率参数。

初始化的过程还包括调整抖动缓存jitterbuffer大小,判断是否开启前向纠错(Forward Error Correction,FEC)以及是否开启包丢失隐藏(Packet Lost Concealment,PLC),即根据前后语音的相关性对丢失的语音数据包进行推测的方法,确保初始化在10ms~20ms内完成,这段时间发送语音静默帧和舒适噪声给对方。初始化完成后,使用新的speech codec编解码语音帧。

本发明所涉及的语音编解码器包括:半速率语音编解码器(HalfRate,HR),全速率语音编解码器(Full Rate,FR),增强型全速率语音编解码器(EnhancedFull Rate,EFR),窄带自适应多速率语音编解码器(Adaptive Multi-rate Narrow Band,AMR-NB),宽带自适应多速率语音编解码器(Adapticve Multi-rate Wide Brand,AMR-WB),增强可变速率编解码器(Enhanced Variable Rate Codec,EVRC),Opus,QCELP,AMR-WB+等。其中Opus为一款免版税、开源的语音编解码器,压缩率和编码效果出色,适用于多种网络环境;QCELP为高通公司提出的CDMA模式下的语音编解码器,基于代码激励线性预测(Code Excited LinearPredication,CELP)算法;AMR-WB+为AMR-WB的改进版本。

此外,也可以不使用机器学习的方法,不训练语音编解码分类器和比特率预测回归器,直接基于当前网络模式选择硬编码的语音编解码器。

本发明还提供一种用于选择调制解调器语音编解码器的计算机系统,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的用于实现上述任意一项方法的计算机可读程序。在具体应用时,可通过本系统首先获得经过训练和提升及微调的语音编解码分类器,而后将该语音编解码分类器部署在个人终端,以在通话时,获得适用于当前网络的语音编解码器。

本发明还提供一种计算机可读的存储介质,存储有用于个人终端的系统程序,所述系统程序在被处理器执行时实现上述本发明的调制解调器语音编解码器的选择方法。在具体应用时:可将该存储介质置于服务端或客户端,也可通过网络对个人终端的调制解调器语音编解码器进行选择,在通话时,有效的选择出适用于当前网络的语音编解码器。

本发明中所提及的个人终端可包括:手机,智能手机,平板电脑,掌上电脑以及各种常见的便携式移动终端,电脑等。

以上实施例仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以存在许多变形。凡是本领域的普通技术人员能以本发明公开的内容直接导出或是联想到的所有变形均应被认为是本发明的保护范围。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于钢轨的MELP/CELP混合语音编码通信系统及编码方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类