特征处理方法、模型训练方法及媒体资源处理方法

文档序号:1861327 发布日期:2021-11-19 浏览:22次 >En<

阅读说明:本技术 特征处理方法、模型训练方法及媒体资源处理方法 (Feature processing method, model training method and media resource processing method ) 是由 曹效伦 于 2021-08-11 设计创作,主要内容包括:本公开关于一种特征处理方法、模型训练方法及媒体资源处理方法,属于计算机技术领域。该特征处理方法包括:从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,多个媒体资源样本包括属于目标类别的正样本和不属于目标类别的负样本;基于获取到的特征值确定至少一个媒体资源特征对应的相关参数,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源在至少一个媒体资源特征的维度上表现出的区分度;确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征,提高了输入特征与媒体资源模型所预测的目标类别的相关度,从而能够提高模型预测的准确度。(The disclosure relates to a feature processing method, a model training method and a media resource processing method, and belongs to the technical field of computers. The feature processing method comprises the following steps: obtaining a characteristic value of at least one media resource characteristic from a plurality of media resource samples, wherein the plurality of media resource samples comprise positive samples belonging to a target category and negative samples not belonging to the target category; determining a relevant parameter corresponding to at least one media resource feature based on the obtained feature value, wherein the relevant parameter is used for representing the degree of distinction of media resources belonging to the target category and media resources not belonging to the target category expressed on the dimension of the at least one media resource feature; and determining the target media resource characteristics of which the related parameters are greater than the threshold value, and taking the target media resource characteristics as the input characteristics of the media resource processing model, so that the correlation degree of the input characteristics and the target category predicted by the media resource model is improved, and the accuracy of model prediction can be improved.)

特征处理方法、模型训练方法及媒体资源处理方法

技术领域

本公开涉及计算机技术领域,尤其涉及一种特征处理方法、模型训练方法及媒体资源处理方法。

背景技术

近年来,机器学习和深度学习技术已广泛应用在各个场景中,以机器学习和深度学习技术为基础,能够训练出具有判别能力的模型,来解决预测问题。例如,在媒体资源推荐场景中,通过训练预测模型,预测用户是否会点击待推荐的媒体资源。

随着所需预测的问题越来越复杂,涉及到的特征也越来越多,例如,在媒体资源推荐场景中,涉及到的特征包括与媒体资源有关的多个特征,如何从大量特征中选择合适的特征,作为模型输入,以促进模型有效学习,提高模型预测的准确度,是一个亟待解决的问题。

发明内容

本公开实施例提供了一种特征处理方法、模型训练方法及媒体资源处理方法,以选择合适的特征,作为模型输入,促进模型有效学习,提高模型预测的准确度。本公开的技术方案如下:

一方面,提供了一种特征处理方法,所述特征处理方法包括:

从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源在所述至少一个媒体资源特征的维度上,表现出的区分度;

从所述多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将所述目标媒体资源特征作为媒体资源处理模型的输入特征,所述媒体资源处理模型用于预测媒体资源是否属于所述目标类别。

本公开实施例提供的技术方案,分别在不同媒体资源特征的维度上,对媒体资源样本的特征值进行分析,得到相关参数,由相关参数表示正负样本之间的区分度,进而反映媒体资源特征与训练目标之间的相关度,实现了对媒体资源特征与训练目标之间的相关度的定量反映,通过选取相关参数大于阈值的媒体资源特征,提高了特征选取的准确性,将相关参数大于阈值的媒体资源特征作为媒体资源处理模型的输入特征,提高了输入特征与训练目标之间的相关度,增强了媒体资源处理模型对正类和负类的分辨能力,促进了模型有效学习,提高了模型预测的准确度。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

确定每个第一阈值对应的假正类率和真正类率;

基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在上述技术方案中,相关参数表示,在取任意第一阈值的情况下,随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,该相关参数从统计学意义上,更加准确的对正负样本之间的区分度进行了定量表示,提高了相关参数表示上述区分度的准确性。

在一些实施例中,所述基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数,包括:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在上述技术方案中,接受者操作特性曲线下方的面积与相关参数代表的统计学含义类似,因此,通过与确定接受者操作特性曲线下方的面积同理的方式,确定相关参数,使得相关参数能够表示以下含义:在取任意第一阈值的情况下,随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,使相关参数更加准确的反映了正负样本之间的区分度,提高了相关参数表示上述区分度的准确性。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

上述技术方案,通过确定多个媒体资源特征的组合对应的相关参数,来反映多个媒体资源特征组合起来与训练目标的相关度,实现了对特征组合与训练目标之间的相关度的定量表示,使得相关参数能够更加综合准确地对媒体资源特征与训练目标之间的相关度进行表示,提高了相关参数表示的准确性,进而结合特征组合与训练目标之间的相关度,进行特征选取,能够进一步提高特征选取的准确性,将所选取的媒体资源特征作为媒体资源处理模型的输入特征,能够进一步提高模型预测的准确度。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在上述技术方案中,该相关参数表示:随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,该相关参数对正样本与负样本之间的区分度进行了更加准确的定量表示,提高了相关参数表示上述区分度的准确性。

在一些实施例中,所述基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,包括:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

上述技术方案,基于组间秩和以及组内秩和,确定目标样本对的第二数量,省去了遍历多个样本对进行比较的过程,提高了第二数量的确定效率。

一方面,提供了一种模型训练方法,所述模型训练方法包括:

获取训练样本和所述训练样本对应的标注信息,所述训练样本包括媒体资源对应的多个媒体资源特征的特征值,所述标注信息用于表示所述训练样本是否属于目标类别;

从所述训练样本中,获取目标媒体资源特征的特征值,所述目标媒体资源特征为相关参数大于阈值的媒体资源特征,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源,在包括所述目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度;

将所述目标媒体资源特征的特征值作为媒体资源处理模型的输入,将所述标注信息作为所述媒体资源处理模型的输出目标,训练所述媒体资源处理模型。

本公开实施例提供的技术方案,从训练样本中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入,训练媒体资源处理模型,减少了无关特征对训练过程的干扰,促进了模型有效学习,能够增强模型对正负类的分辨能力,提高模型预测的准确度。

在一些实施例中,所述从所述训练样本中,获取目标媒体资源特征的特征值之前,所述模型训练方法还包括:

基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征。

在一些实施例中,所述基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征之前,所述模型训练方法还包括:

从多个媒体资源样本中,获取所述至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数;

从所述多个媒体资源特征中,确定相关参数大于阈值的所述目标媒体资源特征;

存储所述目标类别与所述目标媒体资源特征的对应关系。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

确定每个第一阈值对应的假正类率和真正类率;

基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在一些实施例中,所述基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数,包括:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,包括:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

一方面,提供了一种媒体资源处理方法,所述媒体资源处理方法包括:

从媒体资源对应的多个媒体资源特征的特征值中,获取目标媒体资源特征的特征值;

将所述目标媒体资源特征的特征值输入媒体资源处理模型,得到所述媒体资源处理模型输出的预测结果,所述媒体资源处理模型是基于训练样本和所述训练样本对应的标注信息训练得到的,所述预测结果用于表示所述媒体资源是否属于目标类别;

其中,所述目标媒体资源特征为相关参数大于阈值的媒体资源特征,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源,在包括所述目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度。

本公开实施例提供的技术方案,从媒体资源对应的多个媒体资源特征的特征值中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,由媒体资源处理模型基于上述目标媒体资源特征进行预测,减少了无关特征对预测过程的干扰,提高了模型预测的准确度。

在一些实施例中,所述从媒体资源对应的多个媒体资源特征的特征值中,获取目标媒体资源特征的特征值之前,所述媒体资源处理方法还包括:

获取所述媒体资源处理模型对应的所述目标类别;

基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征。

在一些实施例中,所述基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征之前,所述媒体资源处理方法还包括:

从多个媒体资源样本中,获取所述至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数;

从所述多个媒体资源特征中,确定相关参数大于阈值的所述目标媒体资源特征;

存储所述目标类别与所述目标媒体资源特征的对应关系。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

确定每个第一阈值对应的假正类率和真正类率;

基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在一些实施例中,所述基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数,包括:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,包括:

按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,包括:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

一方面,提供了一种特征处理装置,所述特征处理装置包括:

第一特征值获取单元,被配置为执行从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

第一参数确定单元,被配置为执行基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源在所述至少一个媒体资源特征的维度上,表现出的区分度;

第一特征确定单元,被配置为执行从所述多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将所述目标媒体资源特征作为媒体资源处理模型的输入特征,所述媒体资源处理模型用于预测媒体资源是否属于所述目标类别。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;所述第一参数确定单元,包括:

第一阈值获取子单元,被配置为执行从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

第一比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第一参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在一些实施例中,所述第一参数确定子单元,被配置为执行:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;所述第一参数确定单元,被配置为执行:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;所述第一参数确定单元,包括:

第一组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

第一数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

第二数量确定子单元,被配置为执行基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

第二参数确定子单元,被配置为执行将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述第二数量确定子单元,被配置为执行:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

在一些实施例中,所述第一特征确定单元,被配置为执行将对应的相关参数大于阈值的媒体资源特征,确定为所述目标媒体资源特征;或者,

所述第一特征确定单元,被配置为执行按照相关参数从大到小的顺序,对所述多个媒体资源特征进行排序,将前目标数量的媒体资源特征确定为所述目标媒体资源特征。

一方面,提供了一种模型训练装置,所述模型训练装置包括:

样本获取单元,被配置为执行获取训练样本和所述训练样本对应的标注信息,所述训练样本包括媒体资源对应的多个媒体资源特征的特征值,所述标注信息用于表示所述训练样本是否属于目标类别;

第二特征值获取单元,被配置为执行从所述训练样本中,获取目标媒体资源特征的特征值,所述目标媒体资源特征为相关参数大于阈值的媒体资源特征,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源,在包括所述目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度;

模型训练单元,被配置为执行将所述目标媒体资源特征的特征值作为媒体资源处理模型的输入,将所述标注信息作为所述媒体资源处理模型的输出目标,训练所述媒体资源处理模型。

在一些实施例中,所述模型训练装置还包括:

第二特征确定单元,被配置为执行基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征。

在一些实施例中,所述模型训练装置还包括:

第三特征值获取单元,被配置为执行从多个媒体资源样本中,获取所述至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

第二参数确定单元,被配置为执行基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数;

第三特征确定单元,被配置为执行从所述多个媒体资源特征中,确定相关参数大于阈值的所述目标媒体资源特征;

第一关系存储单元,被配置为执行存储所述目标类别与所述目标媒体资源特征的对应关系。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述第二参数确定单元,包括:

第二阈值获取子单元,被配置为执行从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

第二比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第三参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在一些实施例中,所述第三参数确定子单元,被配置为执行:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;

所述第二参数确定单元,被配置为执行:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述第二参数确定单元,包括:

第二组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

第三数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

第四数量确定子单元,被配置为执行基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

第四参数确定子单元,被配置为执行将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述第四数量确定子单元,被配置为执行:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

一方面,提供了一种媒体资源处理装置,所述媒体资源处理装置包括:

第四特征值获取单元,被配置为执行从媒体资源对应的多个媒体资源特征的特征值中,获取目标媒体资源特征的特征值;

媒体资源处理单元,被配置为执行将所述目标媒体资源特征的特征值输入媒体资源处理模型,得到所述媒体资源处理模型输出的预测结果,所述媒体资源处理模型是基于训练样本和所述训练样本对应的标注信息训练得到的,所述预测结果用于表示所述媒体资源是否属于目标类别;

其中,所述目标媒体资源特征为相关参数大于阈值的媒体资源特征,所述相关参数用于表示属于所述目标类别的媒体资源和不属于所述目标类别的媒体资源,在包括所述目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度。

在一些实施例中,所述媒体资源处理装置还包括:

类别获取单元,被配置为执行获取所述媒体资源处理模型对应的所述目标类别;

第四特征确定单元,被配置为执行基于已存储的所述目标类别与所述目标媒体资源特征的对应关系,确定所述目标类别对应的所述目标媒体资源特征。

在一些实施例中,所述媒体资源处理装置还包括:

第五特征值获取单元,被配置为执行从多个媒体资源样本中,获取所述至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,所述多个媒体资源样本包括属于目标类别的正样本和不属于所述目标类别的负样本;

第三参数确定单元,被配置为执行基于获取到的特征值,确定所述至少一个媒体资源特征对应的相关参数;

第五特征确定单元,被配置为执行从所述多个媒体资源特征中,确定相关参数大于阈值的所述目标媒体资源特征;

第二关系存储单元,被配置为执行存储所述目标类别与所述目标媒体资源特征的对应关系。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述第三参数确定单元,被配置为执行:

第三阈值获取子单元,被配置为执行从所述第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取所述第一媒体资源特征对应的多个第一阈值;

第三比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第五参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定所述第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为所述多个媒体资源样本中第一目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第一目标负样本是指第一特征值大于所述第一阈值的所述负样本;

任一第一阈值对应的真正类率为所述多个媒体资源样本中第一目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第一目标正样本是指第一特征值大于所述第一阈值的所述正样本。

在一些实施例中,所述第五参数确定子单元,被配置为执行:

对于所述多个第一阈值中的每个第一阈值,基于所述第一阈值对应的假正类率和真正类率,确定所述第一阈值对应的点,所述第一阈值对应的点的横坐标为所述第一阈值对应的假正类率,所述第一阈值对应的点的纵坐标为所述第一阈值对应的真正类率;

基于所述多个第一阈值对应的多个点,确定接受者操作特性曲线;

将所述接受者操作特性曲线下方的面积,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述至少一个媒体资源特征包括多个第二媒体资源特征;

所述第三参数确定单元,被配置为执行:

对于所述多个第二媒体资源特征中的每个第二媒体资源特征,从所述第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取所述第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定所述多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为所述多个媒体资源样本中第二目标负样本的数量与所述多个媒体资源样本中所述负样本的总数量的比值,所述第二目标负样本是指每个第二特征值均大于对应的第二阈值的所述负样本;

任一阈值组对应的真正类率为所述多个媒体资源样本中第二目标正样本的数量与所述多个媒体资源样本中所述正样本的总数量的比值,所述第二目标正样本是指每个第二特征值均大于对应的第二阈值的所述正样本。

在一些实施例中,所述至少一个媒体资源特征包括一个第一媒体资源特征;

所述第三参数确定单元,包括:

第三组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对所述多个媒体资源样本进行排序,得到所述多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指所述媒体资源样本的第一特征值在所述多个第一特征值中的排序序号;

第五数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由所述多个媒体资源样本中的一个正样本和一个负样本组成;

第六数量确定子单元,被配置为执行基于所述多个媒体资源样本的组间秩,确定目标样本对的第二数量,在所述目标样本对中,正样本的组间秩大于负样本的组间秩;

第六参数确定子单元,被配置为执行将所述第二数量与所述第一数量的比值,确定为所述第一媒体资源特征对应的相关参数。

在一些实施例中,所述第六数量确定子单元,被配置为执行:

将所述多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为所述至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对所述至少一个正样本进行排序,得到所述至少一个正样本的组内秩,一个正样本的组内秩是指所述正样本的第一特征值在所述至少一个正样本的第一特征值中的排序序号;

将所述至少一个正样本的组内秩的和值,确定为所述至少一个正样本的组内秩和;

将所述组间秩和与所述组内秩和的差值,确定为所述第二数量。

一方面,提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述实施例所述的特征处理方法、模型训练方法或媒体资源处理方法。

一方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行上述实施例所述的特征处理方法、模型训练方法或媒体资源处理方法。

一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述实施例所述的特征处理方法、模型训练方法或媒体资源处理方法。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种特征处理方法的流程图;

图2是根据一示例性实施例示出的一种模型训练方法的流程图;

图3是根据一示例性实施例示出的一种媒体资源处理方法的流程图;

图4是根据一示例性实施例示出的一种特征处理方法的流程图;

图5是根据一示例性实施例示出的一种接受者操作特性曲线的示意图;

图6是根据一示例性实施例示出的一种特征处理方法的流程图;

图7是根据一示例性实施例示出的一种特征处理方法的流程图;

图8是根据一示例性实施例示出的一种特征处理装置的框图;

图9是根据一示例性实施例示出的一种模型训练装置的框图;

图10是根据一示例性实施例示出的一种媒体资源处理装置的框图;

图11是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中涉及到的用户特征是经用户和各方充分授权后获取并进行处理的。

本公开实施例提供的特征处理方法由计算机设备执行。在一些实施例中,计算机设备被配置为服务器。服务器为一台服务器、多台服务器、云服务器、云计算平台或虚拟化中心。在一些实施例中,计算机设备被配置为终端。终端为台式计算机、笔记本电脑、平板电脑、智能手机或者其他终端。

图1是根据一示例性实施例示出的一种特征处理方法的流程图。下面结合图1,对该特征处理方法进行简要说明,该特征处理方法包括以下步骤:

在步骤S101中,从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,多个媒体资源样本包括属于目标类别的正样本和不属于目标类别的负样本。

需要说明的一点是,媒体资源为文本、图像、音频或者视频等。一个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,每个媒体资源特征分别从不同角度反映媒体资源的特点。在一些实施例中,媒体资源为发布在资源分享平台上的媒体资源,媒体资源对应的多个媒体资源特征包括表征该媒体资源特性的资源特征、对该媒体资源执行操作的用户的特征和上下文特征中的至少一种。在一些实施例中,表征该媒体资源的特性的特征包括曝光量、点击率和资源表征向量中的至少一个。在一些实施例中,用户特征包括年龄、性别和资源浏览偏好中的至少一个。上下文特征用于表征浏览媒体资源前后的用户行为。

需要说明的另一点是,至少一个媒体资源特征指多个媒体资源特征中的任意一个或任意多个媒体资源特征,“多个”指两个或两个以上。

在一些实施例中,至少一个媒体资源特征为一个第一媒体资源特征,第一媒体资源特征为多个媒体资源特征中的任意一个媒体资源特征,计算机设备从每个媒体资源样本中,获取第一媒体资源特征的特征值,得到多个第一特征值。例如,计算机设备分别从3个媒体资源样本中,获取第一媒体资源特征x的特征值,得到3个第一特征值:x1、x2和x3。

在一些实施例中,至少一个媒体资源特征为多个第二媒体资源特征,多个第二媒体资源特征为多个媒体资源特征中的任意多个媒体资源特征。对于每个第二媒体资源特征,计算机设备从每个媒体资源样本中,获取该第二媒体资源特征的特征值,得到该第二媒体资源特征对应的多个第二特征值。其中,一个第二媒体资源特征对应的多个第二特征值分别属于多个媒体资源样本。

例如,多个第二媒体资源特征包括x和y,对于第二媒体资源特征x,计算机设备分别从3个媒体资源样本中,获取第二媒体资源特征x的特征值,得到第二媒体资源特征x对应的3个第二特征值:x1、x2和x3;对于第二媒体资源特征y,计算机设备分别从3个媒体资源样本中,获取第二媒体资源特征y的特征值,得到第二媒体资源特征y对应的3个第二特征值:y1、y2和y3。

需要说明的另一点是,正样本为属于目标类别的样本,负样本为不属于目标类别的样本,相对应的,媒体资源处理模型的训练目标为预测媒体资源是否属于目标类别。其中,属于目标类别也可以称为是正类,不属于目标类别也可以称为是负类,媒体资源处理模型的预测结果为正类或负类。目标类别可根据所需预测的问题灵活配置。

例如,在媒体资源推荐场景中,目标类别表示向用户推荐媒体资源。若需要向用户推荐其会执行目标操作的媒体资源,目标类别表示用户会对该媒体资源执行目标操作。目标操作为点击操作、收藏操作、转发操作或下载操作等。例如,若需要向用户推荐其会点击的媒体资源,则目标操作为点击操作,目标类别用于表示用户会对该媒体资源执行点击操作;若需要向用户推荐其会收藏的媒体资源,则目标操作为收藏操作,目标类别用于表示用户会对该媒体资源执行收藏操作。再如,在媒体资源分类场景中,目标类别为媒体资源所属的一个内容类别,例如,目标类别为新闻类、摄影类、萌宠类或者美食类等。

另外,多个媒体资源样本的数量可灵活配置,本公开实施例对此不做限制,例如,多个媒体资源样本的数量为10、12或15等。

在步骤S102中,基于获取到的特征值,确定至少一个媒体资源特征对应的相关参数,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源在至少一个媒体资源特征的维度上,表现出的区分度。

其中,相关参数越大,从上述至少一个媒体资源特征的维度上来看,属于目标类别的媒体资源与不属于目标类别的媒体资源之间的区分度越大,属于目标类别的媒体资源的分布与不属于目标类别的媒体资源的分布之间的差异越大,那么,以上述至少一个媒体资源特征作为输入特征,媒体资源处理模型对正类和负类的分辨能力越强,也即是,上述至少一个媒体资源特征与训练目标之间的相关度越高,上述至少一个媒体资源特征越能促进模型有效学习,使模型预测的准确度提高。

在一些实施例中,至少一个媒体资源特征为一个第一媒体资源特征,计算机设备基于多个第一特征值,确定第一媒体资源特征对应的相关参数。

在一些实施例中,至少一个媒体资源特征为多个第二媒体资源特征,多个第二媒体资源特征构成一个特征组合,计算机设备基于每个第二媒体资源特征对应的多个第一特征值,确定该特征组合对应的相关参数。

在步骤S103中,从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征,媒体资源处理模型用于预测媒体资源是否属于目标类别。

需要说明的一点是,计算机设备通过重复执行上述步骤S101至步骤S102,得到多个媒体资源特征分别对应的相关参数,其中,一个媒体资源特征对应至少一个相关参数,也即是,一个媒体资源特征对应一个或多个相关参数。

在一些实施例中,计算机设备每次基于一个媒体资源特征对应的多个特征值,确定该媒体资源特征对应的相关参数,相应的,一个媒体资源特征对应一个相关参数。

在一些实施例中,计算机设备每次基于一个特征组合对应的多个特征值,确定该特征组合对应的相关参数,特征组合中的每个媒体资源特征对应的相关参数均为该特征组合对应的相关参数。在多个特征组合中的媒体资源特征互不相同的情况下,一个媒体资源特征对应一个相关参数;在多个特征组合中的特征重复的情况下,一个媒体资源特征对应多个相关参数。

在一些实施例中,计算机设备除了基于一个媒体资源特征对应的多个特征值,确定该媒体资源特征对应的相关参数之外,还基于包括该媒体资源特征的特征组合对应的多个特征值,确定该特征组合对应的相关参数,相应的,该媒体资源特征对应多个相关参数。

需要说明的另一点是,相关参数大于阈值表示媒体资源特征对应的相关参数处于较高的水平,媒体资源特征与训练目标强相关。在一些实施例中,计算机设备将对应的相关参数大于阈值的媒体资源特征,确定为目标媒体资源特征。其中,阈值可灵活配置,例如,阈值为0.8或者0.9等。在一些实施例中,一个媒体资源特征对应多个相关参数,计算机设备将对应的多个相关参数均大于阈值的媒体资源特征,确定为目标媒体资源特征;或者,将多个相关参数的均值大于阈值的媒体资源特征,确定为目标媒体资源特征。

在另一些实施例中,计算机设备按照相关参数从大到小的顺序,对多个媒体资源特征进行排序,将前目标数量的媒体资源特征确定为目标媒体资源特征。其中,目标数量可灵活配置,例如,目标数量为5、8或者10等。

其中,目标媒体资源特征的数量为一个或多个,本公开实施例对此不做限制。

本公开实施例提供的技术方案,分别在不同媒体资源特征的维度上,对媒体资源样本的特征值进行分析,得到相关参数,由相关参数表示属于目标类别的媒体资源与不属于目标类别的媒体资源之间的区分度,进而反映媒体资源特征与训练目标之间的相关度,实现了对媒体资源特征与训练目标之间的相关度的定量反映,通过选取相关参数大于阈值的媒体资源特征,提高了特征选取的准确性,将相关参数大于阈值的媒体资源特征作为媒体资源处理模型的输入特征,提高了输入特征与训练目标之间的相关度,增强了模型对正类和负类的分辨能力,促进了模型有效学习,提高了模型预测的准确度。

图2是根据一示例性实施例示出的一种模型训练方法的流程图。下面结合图2,对该模型训练方法进行简要说明,该模型训练方法包括以下步骤:

在步骤S201中,获取训练样本和该训练样本对应的标注信息。

其中,训练样本包括媒体资源对应的多个媒体资源特征的特征值,标注信息用于表示训练样本是否属于目标类别。

在步骤S202中,从训练样本中,获取目标媒体资源特征的特征值。

其中,目标媒体资源特征为相关参数大于阈值的媒体资源特征,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源,在包括目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度。

目标媒体资源特征也即是能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间的区别的特征,根据目标媒体资源特征,能够准确快速的确定出媒体资源是否属于目标类别。

在步骤S203中,将目标媒体资源特征的特征值作为媒体资源处理模型的输入,将标注信息作为媒体资源处理模型的输出目标,训练媒体资源处理模型。

将目标媒体资源特征的特征值作为媒体资源处理模型的输入,使媒体资源模型基于目标媒体资源特征的特征值,预测训练样本是否属于目标类别,得到预测结果,进而确定预测结果与该训练样本对应的标注信息之间的差异,以减小该差异,也即是以使媒体资源处理模型输出的预测结果与该标注信息一致为目标,训练该媒体资源处理模型。

需要说明的是,上述训练样本泛指多个训练样本中的一个,上述步骤以一次训练过程为例进行说明,在媒体资源处理模型的训练过程中,计算机设备分别基于每个训练样本,执行一次训练过程,对媒体资源处理模型进行迭代训练。

本公开实施例提供的技术方案,从训练样本中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入,训练媒体资源处理模型,减少了无关特征对训练过程的干扰,促进了模型有效学习,能够增强模型对正负类的分辨能力,提高模型预测的准确度。

图3是根据一示例性实施例示出的一种媒体资源处理方法的流程图。下面结合图3,对该媒体资源处理方法进行简要说明,该媒体资源处理方法包括以下步骤:

在步骤S301中,从媒体资源对应的多个媒体资源特征的特征值中,获取目标媒体资源特征的特征值。

其中,目标媒体资源特征为相关参数大于阈值的媒体资源特征,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源,在包括目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度。

例如,在媒体资源推荐场景中,媒体资源推荐模型用于预测用户是否会对媒体资源执行目标操作,目标媒体资源特征包括媒体资源的资源表征向量和用户对媒体资源执行目标操作的偏好。对于发布在资源分享平台上的媒体资源,提取该媒体资源的资源表征向量的特征值和待推荐用户对媒体资源执行目标操作的偏好的特征值。

在步骤S302中,将目标媒体资源特征的特征值输入媒体资源处理模型,得到媒体资源处理模型输出的预测结果。

其中,媒体资源处理模型是基于训练样本和训练样本对应的标注信息训练得到的,预测结果用于表示媒体资源是否属于目标类别。

例如,在媒体资源推荐场景中,媒体资源处理模型基于媒体资源对应的目标媒体资源特征的特征值,预测用户是否会对该媒体资源执行目标操作,得到预测结果;若预测结果表示用户会对该媒体资源执行目标操作,则确定向该用户推荐该媒体资源,在该用户对应的推荐界面上,显示该媒体资源。

本公开实施例提供的技术方案,从媒体资源对应的多个媒体资源特征的特征值中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,由媒体资源处理模型基于上述目标媒体资源特征进行预测,减少了无关特征对预测过程的干扰,提高了模型预测的准确度。

上述实施例对特征处理方法进行了简要说明,在一些实施例中,单个媒体资源特征的相关参数可以基于接受者操作特性曲线确定,下面结合图4,对基于接受者操作特性曲线,确定相关参数的特征处理方法进行详细说明,图4是根据一示例性实施例示出的一种特征处理方法的流程图。参见图4,该特征处理方法包括以下步骤:

在步骤S401中,计算机设备从多个媒体资源样本中,获取第一媒体资源特征对应的多个第一特征值。

步骤S401与步骤S101同理,在此不再赘述。

在步骤S402中,计算机设备从多个第一特征值中的最大值和最小值之间,获取第一媒体资源特征对应的多个第一阈值。

在一些实施例中,计算机设备确定多个第一特征值中的最大值和最小值,在该最大值和最小值之间,随机获取多个第一阈值,每个第一阈值均大于该最小值,且小于该最大值。

在一些实施例中,最大值表示为xmax,最小值表示为xmin,第一特征值的取值范围表示为[xmin,xmax];计算机设备对该取值范围进行m等分,得到m-1个分界值;将得到的分界值作为第一阈值。其中,m为大于1的正整数。

在步骤S403中,计算机设备确定每个第一阈值对应的假正类率和真正类率。

其中,假正类率(FPR,False Positive Rate)是指将负样本预测为正类的概率。真正类率(TPR,True Positive Rate)是指将正样本预测为正类的概率。在本公开实施例中,确定第一特征值大于第一阈值的样本被预测为正类,那么,第一阈值对应的假正类率也即是多个媒体资源样本中第一目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第一目标负样本是指第一特征值大于第一阈值的负样本。第一阈值对应的真正类率也即是多个媒体资源样本中第一目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第一目标正样本是指第一特征值大于第一阈值的正样本。

上述实施例介绍了确定一个第一阈值对应的假正类率和真正类率的过程,确定每个第一阈值对应的假正类率和真正类率的过程均同理,在此不再赘述。

在上述实施例中,确定第一特征值大于第一阈值的样本被预测为正类,除此之外,在一些实施例中,还确定第一特征值等于第一阈值的样本也被预测为正类。在一些实施例中,第一特征值等于第一阈值的样本看作是一个预测为正类的样本;在一些实施例中,第一特征值等于第一阈值的样本看作是0.5个预测为正类的样本。

在步骤S404中,计算机设备基于每个第一阈值对应的假正类率和真正类率,确定第一媒体资源特征对应的相关参数。

在确定每个第一阈值对应的假正类率和真正类率之后,即可基于每个第一阈值对应的假正类率和真正类率,绘制ROC曲线(Receiver Operating Characteristic Curve,接受者操作特性曲线);基于ROC曲线,确定AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)值;其中,AUC值表示:在取任意第一阈值的情况下,随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,而随机给定的正样本的第一特征值大于随机给定的负样本的第一特征值的概率越大,表示正样本与负样本之间的区分度越大,因此,将AUC值作为相关参数,来表示正样本与负样本之间的区分度。

在一些实施例中,上述步骤S404包括:对于多个第一阈值中的每个第一阈值,计算机设备基于第一阈值对应的假正类率和真正类率,确定该第一阈值对应的点,该第一阈值对应的点的横坐标为该第一阈值对应的假正类率,该第一阈值对应的点的纵坐标为该第一阈值对应的真正类率;基于多个第一阈值对应的多个点,确定ROC曲线;将ROC曲线下方的面积,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,计算机设备连接多个点,得到ROC曲线。在一些实施例中,计算机设备对连接多个点得到的曲线进行平滑处理,得到ROC曲线。

其中,一个阈值对应一个点,在一个示例中,计算机设备基于多个第一阈值对应的多个点,确定了如图5所示的ROC曲线,计算机设备将该ROC曲线下方的面积,也即是ROC曲线与坐标轴和FPR=1表示的直线围成的面积,确定为第一媒体资源特征对应的相关参数。

在上述技术方案中,AUC值与相关参数代表的统计学含义类似,因此,通过与确定AUC值同理的方式,确定相关参数,使得相关参数能够表示以下含义:在取任意第一阈值的情况下,随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,使相关参数更加准确的反映了正负样本之间的区分度,提高了相关参数表示上述区分度的准确性。

在一些实施例中,AUC值也即是真正类率的积分,计算机设备在确定每个第一阈值对应的假正类率和真正类率之后,也可以确定真正类率的积分,将该积分确定为第一媒体资源特征对应的相关参数。也即是,计算机设备通过以下公式一确定相关参数:

公式一:

其中,AUC表示相关参数;xm表示多个第一阈值中的任一第一阈值;xmin表示多个第一特征值中的最小值;xmax表示多个第一特征值中的最大值;TPR表示真正类率;表示多个第一阈值对应的真正类率的积分,也即是ROC曲线下方的面积。

在步骤S405中,计算机设备从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征。

步骤S405与步骤S103同理,在此不再赘述。

在上述技术方案中,相关参数表示,在取任意第一阈值的情况下,随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,该相关参数从统计学意义上,更加准确的对正负样本之间的区分度进行了定量表示,提高了相关参数表示上述区分度的准确性。

上述实施例介绍了确定单个媒体资源特征对应的相关参数的一种方式,在一些实施例中,单个媒体资源特征的相关参数也可以通过其他方式确定,下面结合图6,对基于WMW(Wilcoxon-Mann-Whitney,威尔科克森-曼-惠特尼)秩和检验的思想,确定相关参数的特征处理方法,进行详细说明,图6是根据一示例性实施例示出的一种特征处理方法的流程图。参见图6,该特征处理方法包括以下步骤:

在步骤S601中,计算机设备从多个媒体资源样本中,获取第一媒体资源特征对应的多个特征值。

步骤S601与步骤S101同理,在此不再赘述。

在步骤S602中,计算机设备按照第一特征值从小到大的顺序,对多个媒体资源样本进行排序,得到多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指媒体资源样本的第一特征值在多个第一特征值中的排序序号。

WMW秩和检验是一种非参数统计方法,主要思想是利用两个样本集推断两个样本集所在总体的分布之间差异。在WMW秩和检验中,由U统计量表示两个分布之间的差异。U统计量表示一个样本集中的样本排在另一个样本集中的样本之前的概率。U统计量越大,表示两个分布之间的差异越大。

基于WMW秩和检验的思想,计算机设备按照第一特征值从小到大的顺序,对多个媒体资源样本进行排序,得到多个媒体资源样本的组间秩。第一特征值越小,媒体资源样本的组间秩越小;第一特征值越大,媒体资源样本的组间秩越大。

在一些实施例中,在多个媒体资源样本中,有至少两个媒体资源样本的第一特征值相等,计算机设备依序确定该至少两个媒体资源样本的初始排序序号;确定该至少两个媒体资源样本的初始排序序号的均值;将该均值确定为该至少两个媒体资源样本的组间秩。例如,第一特征值为1的两个媒体资源样本的初始排序序号分别为3和4,则将3和4的均值3.5,确定为这两个媒体资源样本的组间秩。

在步骤S603中,计算机设备获取多个样本对的第一数量,一个样本对由多个媒体资源样本中的一个正样本和一个负样本组成。

多个媒体资源样本可分为正样本组和负样本组,正样本组中的正样本和负样本组中的负样本两两比较,共有第一数量种情况。也即是,多个媒体资源样本包括M个正样本和N个负样本,正样本和负样本两两比较,共有M×N种情况,第一数量为M×N。

在步骤S604中,计算机设备基于多个媒体资源样本的组间秩,确定目标样本对的第二数量,在目标样本对中,正样本的组间秩大于负样本的组间秩。

在一些实施例中,第二数量的初始值为0,在此基础上,计算机设备遍历多个样本对,在确定一个样本对中的正样本的组间秩大于负样本的组间秩时,将第二数量累加1。在遍历完多个样本对后,即得到目标样本对的第二数量。

由于一个媒体资源样本的组间秩表示特征值不大于该媒体资源样本的媒体资源样本的数量,其中,特征值不大于该媒体资源样本的媒体资源包括正样本和负样本,并且,一个正样本的组内秩表示特征值不大于该正样本的正样本的数量,那么,一个正样本的组间秩与组内秩的差值即为特征值不大于该正样本的负样本的数量,正样本的组间秩和与正样本的组内秩和的差值即为M×N种情况中,正样本大于负样本的情况的总数量,也即是目标样本对的第二数量。

相应的,在一些实施例中,上述步骤S604包括以下步骤:计算机设备将多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为至少一个正样本的组间秩和;计算机设备按照第一特征值从小到大的顺序,对至少一个正样本进行排序,得到至少一个正样本的组内秩,一个正样本的组内秩是指正样本的第一特征值在至少一个正样本的第一特征值中的排序序号;将至少一个正样本的组内秩的和值,确定为至少一个正样本的组内秩和;将组间秩和与组内秩和的差值,确定为第二数量。

上述技术方案,基于组间秩和以及组内秩和,确定目标样本对的第二数量,省去了遍历多个样本对进行比较的过程,提高了第二数量的确定效率。

在步骤S605中,计算机设备将第二数量与第一数量的比值,确定为第一媒体资源特征对应的相关参数。

计算机设备将第二数量与第一数量的比值,确定为第一媒体资源特征对应的相关参数,也即是,计算机设备通过以下公式二,确定第一媒体资源特征对应的相关参数:

公式二:

其中,AUC表示相关参数;M为多个媒体资源样本中的至少一个正样本的数量;N为多个媒体资源样本中的负样本的数量;R为至少一个正样本的组间秩和;为至少一个正样本的组内秩和;也即是第二数量;M×N也即是第一数量。

在步骤S606中,计算机设备从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征。

步骤S606与步骤S103同理,在此不再赘述。

基于上述相关参数的确定过程可知,该相关参数表示:随机给定一个正样本和一个负样本,正样本的第一特征值大于负样本的第一特征值的概率,该相关参数对正样本与负样本之间的区分度进行了更加准确的定量表示,提高了相关参数表示上述区分度的准确性。

上述实施例介绍了确定单个媒体资源特征的相关参数的特征处理方法,在一些实施例中,多个媒体资源特征构成一个特征组合,下面结合图7,对确定特征组合对应的相关参数的特征处理方法进行详细说明,图7是根据一示例性实施例示出的一种特征处理方法的流程图。参见图7,该特征处理方法包括以下步骤:

在步骤S701中,对于多个第二媒体资源特征中的每个第二媒体资源特征,计算机设备从多个媒体资源样本中,获取每个第二媒体资源特征对应的多个第二特征值。

步骤S701与步骤S101同理,在此不再赘述。

在步骤S702中,对于多个第二媒体资源特征中的每个第二媒体资源特征,计算机设备从第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取该第二媒体资源特征对应的多个第二阈值。

对于每个第二媒体资源特征,计算机设备均获取该第二媒体资源特征对应的多个第二阈值。计算机设备获取每个第二媒体资源特征对应的多个阈值的过程与步骤S402同理,在此不再赘述。

在步骤S703中,计算机设备从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组。

计算机设备从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,从而获取到多个第二媒体资源特征分别对应的多个第二阈值,其中,一个第二媒体资源特征对应一个第二阈值,该多个第二媒体资源特征分别对应的多个第二阈值构成一个阈值组。

在一些实施例中,计算机设备多次执行步骤S703,得到多个阈值组。在一些实施例中,计算机设备每次从每个第二媒体资源特征对应的多个第二阈值中,随机选取一个第二阈值,得到一个阈值组。

在一些实施例中,计算机设备对每个第二媒体资源特征对应的多个第二阈值进行排列组合,得到多个阈值组。

在步骤S704中,计算机设备对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率。

一个阈值组包括n个阈值,n为正整数,特征值与该阈值组的比较结果有2n种。以阈值组包括2个阈值为例,一个阈值组包括阈值x1t和阈值x2t,特征值与该阈值组的比较结果包括以下4种情况:(1)x1>x1t,x2>x2t;(2)x1<x1t,x2>x2t;(3)x1>x1t,x2<x2t;(4)x1<x1t,x2<x2t。其中,x1为阈值x1t对应的媒体资源特征,x1为阈值x2t对应的媒体资源特征。

若考虑(2)和(3)两种中间情况,会将参与相关参数确定的特征值限定在某一范围内,导致确定相关参数所基于的媒体资源样本发生变化,不再是上述多个媒体资源样本,而是多个媒体资源样本中的一部分,相应的,相关参数所表示的区分度也是以该范围为前提条件的,相关参数对区分度表示的准确性会降低。

举例来说,若保留对情况(2)的考虑,将符合情况(1)的媒体资源样本作为预测的正类,将符合情况(2)的媒体资源样本作为预测的负类,那么,二者同时限定了x2>x2t,相当于从原始的多个媒体资源样本中,选取出符合x2>x2t的媒体资源样本,构成样本子集;在该样本子集的基础上,考虑媒体资源特征与训练目标的相关度,在上述过程中,确定相关参数所基于的样本集发生了变化,相关参数对区分度表示的准确性也会降低。

也就是说,在确定特征组合对应的相关参数时,若考虑阈值与媒体资源特征比较的中间情况,会导致相关参数对区分度表示的准确性降低,因此,在一些实施例中,为了保证相关参数对区分度表示的准确性,会舍弃阈值与特征值比较的中间情况,确定特征值分别大于阈值的媒体资源样本被预测为正类,特征值分别小于阈值的媒体资源样本被预测为负类,在此基础上,确定假正类率和真正类率。以阈值组包括2个阈值为例,确定满足x1>x1t,x2>x2t的媒体资源样本被预测为正类,确定满足x1<x1t,x2<x2t的媒体资源样本被预测为负类。

相应的,一个阈值组对应的假正类率为多个媒体资源样本中第二目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第二目标负样本中的每个第二特征值均大于对应的第二阈值。一个阈值组对应的真正类率为多个媒体资源样本中第二目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第二目标正样本中的每个第二特征值均大于对应的第二阈值。

上述技术方案,通过舍弃阈值与媒体资源特征比较的中间情况,不仅提高了相关参数对区分度表示的准确性,还在特征组合与阈值的比较情况呈指数级增长的情况下,减少了参与确定假正类率和真正类率的样本数量,提高了确定假正类率和真正类率的效率。

由于特征组合包括的媒体资源特征的数量越多,舍弃的中间情况也会越多,样本数量会下降,因此,可以设置特征组合包含少量的媒体资源特征,减少舍弃的样本数量,也可以在确定单个媒体资源特征对应的相关参数之后,确定特征组合对应的相关参数作为补充。

在步骤S705中,计算机设备基于每个阈值组对应的假正类率和真正类率,确定多个第二媒体资源特征对应的相关参数。

步骤S705与步骤S404同理,也即是,对于多个阈值组中的每个阈值组,计算机设备基于阈值组对应的假正类率和真正类率,确定该阈值组对应的点,该阈值组对应的点的横坐标为该阈值组对应的假正类率,该阈值组对应的点的纵坐标为该阈值组对应的真正类率;基于多个阈值组对应的多个点,确定ROC曲线;将ROC曲线下方的面积,确定为多个第二媒体资源特征对应的相关参数,该相关参数为多个第二媒体资源特征构成的特征组合对应的相关参数。

在步骤S706中,计算机设备从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征。

步骤S706与步骤S103同理,在此不再赘述。

上述技术方案,通过确定多个媒体资源特征的组合对应的相关参数,来反映多个媒体资源特征组合起来与训练目标的相关度,实现了对特征组合与训练目标之间的相关度的定量表示,使得相关参数能够更加综合准确地对媒体资源特征与训练目标之间的相关度进行表示,提高了相关参数表示的准确性,进而结合特征组合与训练目标之间的相关度,进行特征选取,能够进一步提高特征选取的准确性,将所选取的媒体资源特征作为媒体资源处理模型的输入特征,能够进一步提高模型预测的准确度。

另外,本公开实施例提供的技术方案,通过选取相关参数大于阈值的媒体资源特征,忽略了与训练目标不相关或相关度较低的媒体资源特征,减少了这些特征对模型学习的干扰,进一步提高了模型预测的准确度,并且,减少了模型所需处理的无效特征,提高了模型处理效率。

并且,本公开实施例提供的技术方案是通过对特征值的分析,确定媒体资源特征与训练目标之间的相关度,能够在模型训练之前执行,不依赖于训练完成的模型,相较于通过单一变量法,在控制其他特征的特征值不变的情况下,调整单个特征的特征值,观察模型输出,以确定特征与训练目标之间的相关度的方案,不以其他特征的特征值不变为前提条件进行分析,所确定相关参数能够从统计学意义上,更加准确地从整体上定量表示媒体资源特征与训练目标之间的相关度,提高了相关参数对媒体资源特征与训练目标之间的相关度表示的准确性。

并且,本公开实施例提供的技术方案,基于统计学的思想,确定相关参数,使相关参数在整体分布的角度上,表示媒体资源特征与训练目标之间的相关程度,相较于观察媒体资源特征的不同取值与训练目标共同出现的次数的方案,更准确的从整体维度上,概括表示了媒体资源特征与训练目标之间的相关度,提高了相关参数对媒体资源特征与训练目标之间的相关度表示的准确性。

需要说明的是,本公开实施例确定的目标媒体资源特征能够突出体现属于目标类别的媒体资源与不属于目标类别的媒体资源之间的区别,目标媒体资源特征与目标类别强相关,在训练用于预测目标类别的媒体资源处理模型,或,应用预测目标类别的媒体资源处理模型处理媒体资源时,均可基于预先确定的目标媒体资源特征,提取对应的特征值,作为模型输入。在一些实施例中,在从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征之后,存储目标媒体资源特征与目标类别的对应关系。相应的,在训练用于预测目标类别的任一媒体资源处理模型之前,基于已存储的目标类别与目标媒体资源特征的对应关系,确定该目标类别对应的目标媒体资源特征。在应用任一媒体资源处理模型处理媒体资源之前,获取该媒体资源处理模型对应的目标类别,基于已存储的目标类别与目标媒体资源特征的对应关系,确定该目标类别对应的目标媒体资源特征。

上述技术方案,在确定出目标媒体资源特征后,对应存储目标类别与目标媒体资源特征,后续在训练用于预测目标类别的模型或应用预测目标类别的模型之前,均可直接已存储的对应关系,确定对应的目标媒体资源特征,无需重复执行确定目标媒体资源特征的步骤,提高了获取目标媒体资源特征的效率。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

图8是根据一示例性实施例示出的一种特征处理装置的框图。参见图8,该特征处理装置包括:

第一特征值获取单元801,被配置为执行从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,多个媒体资源样本包括属于目标类别的正样本和不属于目标类别的负样本;

第一参数确定单元802,被配置为执行基于获取到的特征值,确定至少一个媒体资源特征对应的相关参数,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源在至少一个媒体资源特征的维度上,表现出的区分度;

第一特征确定单元803,被配置为执行从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入特征,媒体资源处理模型用于预测媒体资源是否属于目标类别。

本公开实施例提供的特征处理装置,分别在不同媒体资源特征的维度上,对媒体资源样本的特征值进行分析,得到相关参数,由相关参数表示属于目标类别的媒体资源与不属于目标类别的媒体资源之间的区分度,进而反映媒体资源特征与训练目标之间的相关度,实现了对媒体资源特征与训练目标之间的相关度的定量反映,通过选取相关参数大于阈值的媒体资源特征,提高了特征选取的准确性,将相关参数大于阈值的媒体资源特征作为媒体资源处理模型的输入特征,提高了输入特征与训练目标之间的相关度,增强了模型对正类和负类的分辨能力,促进了模型有效学习,提高了模型预测的准确度。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;第一参数确定单元802,包括:

第一阈值获取子单元,被配置为执行从第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取第一媒体资源特征对应的多个第一阈值;

第一比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第一参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为多个媒体资源样本中第一目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第一目标负样本是指第一特征值大于第一阈值的负样本;

任一第一阈值对应的真正类率为多个媒体资源样本中第一目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第一目标正样本是指第一特征值大于第一阈值的正样本。

在一些实施例中,第一参数确定子单元,被配置为执行:

对于多个第一阈值中的每个第一阈值,基于第一阈值对应的假正类率和真正类率,确定第一阈值对应的点,第一阈值对应的点的横坐标为第一阈值对应的假正类率,第一阈值对应的点的纵坐标为第一阈值对应的真正类率;

基于多个第一阈值对应的多个点,确定接受者操作特性曲线;

将接受者操作特性曲线下方的面积,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,至少一个媒体资源特征包括多个第二媒体资源特征;第一参数确定单元802,被配置为执行:

对于多个第二媒体资源特征中的每个第二媒体资源特征,从第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为多个媒体资源样本中第二目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第二目标负样本是指每个第二特征值均大于对应的第二阈值的负样本;

任一阈值组对应的真正类率为多个媒体资源样本中第二目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第二目标正样本是指每个第二特征值均大于对应的第二阈值的正样本。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;第一参数确定单元802,包括:

第一组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对多个媒体资源样本进行排序,得到多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指媒体资源样本的第一特征值在多个第一特征值中的排序序号;

第一数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由多个媒体资源样本中的一个正样本和一个负样本组成;

第二数量确定子单元,被配置为执行基于多个媒体资源样本的组间秩,确定目标样本对的第二数量,在目标样本对中,正样本的组间秩大于负样本的组间秩;

第二参数确定子单元,被配置为执行将第二数量与第一数量的比值,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,第二数量确定子单元,被配置为执行:

将多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对至少一个正样本进行排序,得到至少一个正样本的组内秩,一个正样本的组内秩是指正样本的第一特征值在至少一个正样本的第一特征值中的排序序号;

将至少一个正样本的组内秩的和值,确定为至少一个正样本的组内秩和;

将组间秩和与组内秩和的差值,确定为第二数量。

在一些实施例中,第一特征确定单元803,被配置为执行将对应的相关参数大于阈值的媒体资源特征,确定为目标媒体资源特征;或者,

第一特征确定单元803,被配置为执行按照相关参数从大到小的顺序,对多个媒体资源特征进行排序,将前目标数量的媒体资源特征确定为目标媒体资源特征。

关于上述实施例中的特征处理装置,其中各个单元执行操作的具体方式已经在有关特征处理方法的实施例中进行了详细描述,此处未做详细阐述说明。

图9是根据一示例性实施例示出的一种模型训练装置的框图。参见图9,该模型训练装置包括:

样本获取单元901,被配置为执行获取训练样本和训练样本对应的标注信息,训练样本包括媒体资源对应的多个媒体资源特征的特征值,标注信息用于表示训练样本是否属于目标类别;

第二特征值获取单元902,被配置为执行从训练样本中,获取目标媒体资源特征的特征值,目标媒体资源特征为相关参数大于阈值的媒体资源特征,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源,在包括目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度;

模型训练单元903,被配置为执行将目标媒体资源特征的特征值作为媒体资源处理模型的输入,将标注信息作为媒体资源处理模型的输出目标,训练媒体资源处理模型。

本公开实施例提供的模型训练装置,从训练样本中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,将目标媒体资源特征作为媒体资源处理模型的输入,训练媒体资源处理模型,减少了无关特征对训练过程的干扰,促进了模型有效学习,能够增强模型对正负类的分辨能力,提高模型预测的准确度。

在一些实施例中,该模型训练装置还包括:

第二特征确定单元,被配置为执行基于已存储的目标类别与目标媒体资源特征的对应关系,确定目标类别对应的目标媒体资源特征。

在一些实施例中,该模型训练装置还包括:

第三特征值获取单元,被配置为执行从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,多个媒体资源样本包括属于目标类别的正样本和不属于目标类别的负样本;

第二参数确定单元,被配置为执行基于获取到的特征值,确定至少一个媒体资源特征对应的相关参数;

第三特征确定单元,被配置为执行从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征;

第一关系存储单元,被配置为执行存储目标类别与目标媒体资源特征的对应关系。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;

第二参数确定单元,包括:

第二阈值获取子单元,被配置为执行从第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取第一媒体资源特征对应的多个第一阈值;

第二比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第三参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为多个媒体资源样本中第一目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第一目标负样本是指第一特征值大于第一阈值的负样本;

任一第一阈值对应的真正类率为多个媒体资源样本中第一目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第一目标正样本是指第一特征值大于第一阈值的正样本。

在一些实施例中,第三参数确定子单元,被配置为执行:

对于多个第一阈值中的每个第一阈值,基于第一阈值对应的假正类率和真正类率,确定第一阈值对应的点,第一阈值对应的点的横坐标为第一阈值对应的假正类率,第一阈值对应的点的纵坐标为第一阈值对应的真正类率;

基于多个第一阈值对应的多个点,确定接受者操作特性曲线;

将接受者操作特性曲线下方的面积,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,至少一个媒体资源特征包括多个第二媒体资源特征;

第二参数确定单元,被配置为执行:

对于多个第二媒体资源特征中的每个第二媒体资源特征,从第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为多个媒体资源样本中第二目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第二目标负样本是指每个第二特征值均大于对应的第二阈值的负样本;

任一阈值组对应的真正类率为多个媒体资源样本中第二目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第二目标正样本是指每个第二特征值均大于对应的第二阈值的正样本。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;

第二参数确定单元,包括:

第二组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对多个媒体资源样本进行排序,得到多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指媒体资源样本的第一特征值在多个第一特征值中的排序序号;

第三数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由多个媒体资源样本中的一个正样本和一个负样本组成;

第四数量确定子单元,被配置为执行基于多个媒体资源样本的组间秩,确定目标样本对的第二数量,在目标样本对中,正样本的组间秩大于负样本的组间秩;

第四参数确定子单元,被配置为执行将第二数量与第一数量的比值,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,第四数量确定子单元,被配置为执行:

将多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对至少一个正样本进行排序,得到至少一个正样本的组内秩,一个正样本的组内秩是指正样本的第一特征值在至少一个正样本的第一特征值中的排序序号;

将至少一个正样本的组内秩的和值,确定为至少一个正样本的组内秩和;

将组间秩和与组内秩和的差值,确定为第二数量。

关于上述实施例中的模型训练装置,其中各个单元执行操作的具体方式已经在有关模型训练方法的实施例中进行了详细描述,此处未做详细阐述说明。

图10是根据一示例性实施例示出的一种媒体资源处理装置的框图。参见图10,该媒体资源处理装置包括:

第四特征值获取单元1001,被配置为执行从媒体资源对应的多个媒体资源特征的特征值中,获取目标媒体资源特征的特征值;

媒体资源处理单元1002,被配置为执行将目标媒体资源特征的特征值输入媒体资源处理模型,得到媒体资源处理模型输出的预测结果,媒体资源处理模型是基于训练样本和训练样本对应的标注信息训练得到的,预测结果用于表示媒体资源是否属于目标类别;

其中,目标媒体资源特征为相关参数大于阈值的媒体资源特征,相关参数用于表示属于目标类别的媒体资源和不属于目标类别的媒体资源,在包括目标媒体资源特征的至少一个媒体资源特征的维度上,表现出的区分度。

本公开实施例提供的媒体资源处理装置,从媒体资源对应的多个媒体资源特征的特征值中,获取能够突出体现属于目标类别的媒体资源和不属于目标类别的媒体资源之间区别的目标媒体资源特征,由媒体资源处理模型基于上述目标媒体资源特征进行预测,减少了无关特征对预测过程的干扰,提高了模型预测的准确度。

在一些实施例中,该媒体资源处理装置还包括:

类别获取单元,被配置为执行获取媒体资源处理模型对应的目标类别;

第四特征确定单元,被配置为执行基于已存储的目标类别与目标媒体资源特征的对应关系,确定目标类别对应的目标媒体资源特征。

在一些实施例中,该媒体资源处理装置还包括:

第五特征值获取单元,被配置为执行从多个媒体资源样本中,获取至少一个媒体资源特征的特征值,每个媒体资源样本包括一个媒体资源对应的多个媒体资源特征的特征值,多个媒体资源样本包括属于目标类别的正样本和不属于目标类别的负样本;

第三参数确定单元,被配置为执行基于获取到的特征值,确定至少一个媒体资源特征对应的相关参数;

第五特征确定单元,被配置为执行从多个媒体资源特征中,确定相关参数大于阈值的目标媒体资源特征;

第二关系存储单元,被配置为执行存储目标类别与目标媒体资源特征的对应关系。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;

第三参数确定单元,被配置为执行:

第三阈值获取子单元,被配置为执行从第一媒体资源特征对应的多个第一特征值中的最大值和最小值之间,获取第一媒体资源特征对应的多个第一阈值;

第三比率确定子单元,被配置为执行确定每个第一阈值对应的假正类率和真正类率;

第五参数确定子单元,被配置为执行基于每个第一阈值对应的假正类率和真正类率,确定第一媒体资源特征对应的相关参数;

其中,任一第一阈值对应的假正类率为多个媒体资源样本中第一目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第一目标负样本是指第一特征值大于第一阈值的负样本;

任一第一阈值对应的真正类率为多个媒体资源样本中第一目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第一目标正样本是指第一特征值大于第一阈值的正样本。

在一些实施例中,第五参数确定子单元,被配置为执行:

对于多个第一阈值中的每个第一阈值,基于第一阈值对应的假正类率和真正类率,确定第一阈值对应的点,第一阈值对应的点的横坐标为第一阈值对应的假正类率,第一阈值对应的点的纵坐标为第一阈值对应的真正类率;

基于多个第一阈值对应的多个点,确定接受者操作特性曲线;

将接受者操作特性曲线下方的面积,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,至少一个媒体资源特征包括多个第二媒体资源特征;

第三参数确定单元,被配置为执行:

对于多个第二媒体资源特征中的每个第二媒体资源特征,从第二媒体资源特征对应的多个第二特征值中的最大值和最小值之间,获取第二媒体资源特征对应的多个第二阈值;

从每个第二媒体资源特征对应的多个第二阈值中,获取一个第二阈值,得到一个阈值组;

对于得到的多个阈值组,确定每个阈值组对应的假正类率和真正类率;

基于每个阈值组对应的假正类率和真正类率,确定多个第二媒体资源特征对应的相关参数;

其中,任一阈值组对应的假正类率为多个媒体资源样本中第二目标负样本的数量与多个媒体资源样本中负样本的总数量的比值,第二目标负样本是指每个第二特征值均大于对应的第二阈值的负样本;

任一阈值组对应的真正类率为多个媒体资源样本中第二目标正样本的数量与多个媒体资源样本中正样本的总数量的比值,第二目标正样本是指每个第二特征值均大于对应的第二阈值的正样本。

在一些实施例中,至少一个媒体资源特征包括一个第一媒体资源特征;

第三参数确定单元,包括:

第三组间秩确定子单元,被配置为执行按照第一特征值从小到大的顺序,对多个媒体资源样本进行排序,得到多个媒体资源样本的组间秩,一个媒体资源样本的组间秩是指媒体资源样本的第一特征值在多个第一特征值中的排序序号;

第五数量获取子单元,被配置为执行获取多个样本对的第一数量,一个样本对由多个媒体资源样本中的一个正样本和一个负样本组成;

第六数量确定子单元,被配置为执行基于多个媒体资源样本的组间秩,确定目标样本对的第二数量,在目标样本对中,正样本的组间秩大于负样本的组间秩;

第六参数确定子单元,被配置为执行将第二数量与第一数量的比值,确定为第一媒体资源特征对应的相关参数。

在一些实施例中,第六数量确定子单元,被配置为执行:

将多个媒体资源样本中的至少一个正样本的组间秩的和值,确定为至少一个正样本的组间秩和;

按照第一特征值从小到大的顺序,对至少一个正样本进行排序,得到至少一个正样本的组内秩,一个正样本的组内秩是指正样本的第一特征值在至少一个正样本的第一特征值中的排序序号;

将至少一个正样本的组内秩的和值,确定为至少一个正样本的组内秩和;

将组间秩和与组内秩和的差值,确定为第二数量。

关于上述实施例中的媒体资源处理装置,其中各个单元执行操作的具体方式已经在有关媒体资源处理方法的实施例中进行了详细描述,此处未做详细阐述说明。

图11是根据一示例性实施例示出的一种计算机设备的框图,该计算机设备1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)1101和一个或一个以上的存储器1102,其中,存储器1102用于存储可执行指令,处理器1101被配置为执行上述可执行指令,以实现上述各个方法实施例提供的特征处理方法、模型训练方法或媒体资源处理方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1102,上述指令可由计算机设备1100的处理器1101执行以完成上述特征处理方法、模型训练方法或媒体资源处理方法。在一些实施例中,计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各个方法实施例中的特征处理方法、模型训练方法或媒体资源处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

43页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于区块链的车辆信息处理方法、装置及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!