一种视频格调识别方法、装置及电子设备

文档序号:1937601 发布日期:2021-12-07 浏览:13次 >En<

阅读说明:本技术 一种视频格调识别方法、装置及电子设备 (Video tone identification method and device and electronic equipment ) 是由 余亭浩 陈少华 侯昊迪 张绍明 于 2021-04-20 设计创作,主要内容包括:本申请公开了一种视频格调识别方法、装置及电子设备,该方法属于人工智能领域,该方法包括:通过格调分析模型对目标视频进行分析,得到目标视频的格调信息,其中,该格调信息表征了目标视频的格调的高低程度,这样可以通过识别到的视频格调的高低的程度,更加准确的对用户进行视频推荐。并且训练该格调分析模型的第一训练样本为从负反馈视频中获取的与格调相关的视频,其中,负反馈视频表示用户感兴趣程度较低的视频,由此,从负反馈视频中获取到的训练样本更加能够代表用户的实际需求,这样通过该训练样本训练得到的格调分析模型,更能够分析出符合用户需求的结果。(The application discloses a video tone identification method, a video tone identification device and electronic equipment, wherein the method belongs to the field of artificial intelligence, and comprises the following steps: the target video is analyzed through the tone analysis model to obtain the tone information of the target video, wherein the tone information represents the height degree of the tone of the target video, so that the video recommendation can be more accurately performed on the user through the identified height degree of the video tone. And the first training sample for training the pattern analysis model is a video related to the pattern obtained from the negative feedback video, wherein the negative feedback video represents a video with a low user interest degree, so that the training sample obtained from the negative feedback video can better represent the actual requirement of the user, and the result meeting the requirement of the user can be analyzed through the pattern analysis model obtained by training the training sample.)

一种视频格调识别方法、装置及电子设备

技术领域

本发明涉及视频处理领域,尤其涉及一种视频格调识别方法、装置及电子设备。

背景技术

随着短视频领域的不断发展,短视频的内容也越来越多样,一些用户为了追求点击量,制作了一些低调性视频,例如视频内容的调性较低,或者格调偏低,也可以认为是三俗的视频。对于此类的视频,大众争议很大,有一些人不喜欢观看此类视频,甚至会非常反感,但是,也有一些人喜欢观看。因此,为了能够给用户提供针对性的推荐,需要将低调性视频识别出来。

现有技术中的对于视频格调的分类方法,一般是人工定义低调性的标准,并通过人工定义的标准选择训练样本,然而,人为定义的低调性的标准具有很强的局限性,无法反应真实的用户需求情况。

除此之外,现有技术中通常采用二分类模型对低调性视频进行识别,那么识别的结果只包含两种情况,无法体现视频格调的高低程度,将二分类模型的识别结果应用到信息推荐的效果较差。

发明内容

有鉴于此,本发明实施例提供了一种视频格调识别方法及装置,通过分析视频格调的高低程度,从而在进行用户推荐时,采用该预测结果可以得到更加符合用户需求的视频推荐结果。

本发明实施例公开了一种视频格调识别方法,包括:

获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;所述格调信息表征所述目标视频格调的高低程度;

其中,所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练;其中,所述负反馈视频是用户反馈信息中表示用户感兴趣程度较低的视频。

可选地,所述格调分析模型,包括:

图像处理模块、文本处理模块、音频处理模块和融合模块;所述图像处理模块用于从图像信息中提取图像特征,所述文本处理模块用于从文本信息中提取文本特征,所述音频处理模块用于从音频信息中提取音频特征,所述融合模块用于将图像特征、文本特征和音频特征进行融合,得到融合特征,以通过融合特征分析视频的格调信息。

可选地,所述格调分析模型的训练过程包括:

将从负反馈视频中获取的与格调相关的视频的图像信息作为第二训练样本,以待训练的图像处理模块对所述第二训练样本的格调信息的预测结果趋近于所述第二训练样本的标准格调信息为目标,对所述图像处理模块进行训练,得到已训练的图像处理模块;

将从负反馈视频中获取的与格调相关的视频的文本信息作为第三训练样本,以待训练的文本处理模块对所述第三训练样本预测的格调信息的预测结果趋近于所述第三训练样本的标准格调信息为目标,对文本处理模块进行训练,得到已训练的文本处理模块;

将从负反馈视频中获取的与格调相关的视频的音频信息作为第四训练样本,以待训练的文本处理模块对所述第四训练样本预测的格调信息的预测结果趋近于所述第四训练样本的标准格调信息为目标,对音频处理模块进行训练,得到已训练的音频处理模块;

将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息。

可选地,所述将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息,包括:

获取第五训练样本中每个视频的图像信息、文本信息和音频信息;

将第五训练样本中每个视频的图像信息输入到已训练的图像处理模块中,得到图像特征;

将第五训练样本中每个视频的文本信息输入到已训练的文本处理模块中,得到文本特征;

将第五训练样本中每个视频的音频信息输入到已训练的音频处理模块中,得到音频特征;

通过第五训练样本中每个视频的图像特征、文本特征和音频特征对融合模块进行训练,以使所述融合模块预测的第五训练样本的格调信息趋近于第五训练样本的标准格调信息。

可选地,所述标准格调信息的获取方法包括:

统计目标训练样本中负反馈视频的数量,以及所有负反馈视频对应的负反馈信息的总数量;所述目标训练样本为所述第一训练样本、第二训练样本、第三训练样本或者第四训练样本;

通过所述负反馈视频对应的负反馈信息的总数量和负反馈视频的总数量,计算平均格调分;

针对任意一个负反馈视频,通过该负反馈视频对应的负反馈信息的数量和平均格调分,计算该负反馈视频的格调分,并以所述负反馈视频的格调分表示所述负反馈视频的标准格调信息。

可选地,格调分析模型的训练过程包括:

从负反馈视频中获取的与格调相关的视频作为第六训练样本,获取所述第六训练样本中每个视频的图像信息、文本信息和音频信息;

将第六训练样本中每个视频的图像信息、文本信息和音频信息和每个训练样本的标准格调信息输入到待训练的格调分析模型中,对待训练的格调分析模型进行训练。

本发明实施例还公开了一种视频的格调识别装置,包括:

获取单元,用于获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

预测单元,用于将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;所述格调信息表征所述目标视频格调的高低程度;所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练后;其中,所述负反馈视频是从用户反馈信息中表示用户感兴趣程度较低的视频。

可选地,所述格调分析模型,包括:

图像处理模块、文本处理模块、音频处理模块和融合模块;所述图像处理模块用于从图像信息中提取图像特征,所述文本处理模块用于从文本信息中提取文本特征,所述音频处理模块用于从音频信息中提取音频特征,所述融合模块用于将图像特征、文本特征和音频特征进行融合,得到融合特征,以通过融合特征分析视频的格调信息。

可选地,还包括:

第一格调分析模型训练单元,用于:

将从负反馈视频中获取的与格调相关的视频的图像信息作为第二训练样本,以待训练的图像处理模块对所述第二训练样本的格调信息的预测结果趋近于所述第二训练样本的标准格调信息为目标,对所述图像处理模块进行训练,得到已训练的图像处理模块;

将从负反馈视频中获取的与格调相关的视频的文本信息作为第三训练样本,以待训练的文本处理模块对所述第三训练样本预测的格调信息的预测结果趋近于所述第三训练样本的标准格调信息为目标,对文本处理模块进行训练,得到已训练的文本处理模块;

将从负反馈视频中获取的与格调相关的视频的音频信息作为第四训练样本,以待训练的文本处理模块对所述第四训练样本预测的格调信息的预测结果趋近于所述第四训练样本的标准格调信息为目标,对音频处理模块进行训练,得到已训练的音频处理模块;

将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息。

本发明实施例还公开了一种电子设备,包括:

处理器和存储器;

其中,所述处理器用于执行所述存储器中存储的程序;

所述存储器用于存储程序,所述程序至少用于:

获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;所述格调信息表征所述目标视频格调的高低程度;

所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练后;其中,所述负反馈视频是从用户反馈信息中表示用户感兴趣程度较低的视频。

本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载并执行,至少实现下述的视频格调识别方法:

获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息,所述格调信息表征所述目标视频格调的高低程度;

其中,所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练;其中,所述负反馈视频是用户反馈信息中表示用户感兴趣程度较低的视频。

本发明实施例公开了一种视频格调识别方法,包括:通过格调分析模型对目标视频进行分析,得到目标视频的格调信息,其中,该格调信息表征了视频格调的高低程度,这样可以通过识别到地视频的格调高低的程度,更加准确的对用户进行视频推荐。并且,训练该格调分析模型的第一训练样本为从负反馈视频中获取的与格调相关的视频,负反馈视频为用户感兴趣程度较低的视频,由此,从负反馈视频中获取到的训练样本更加能够代表用户的实际需求,这样通过该训练样本训练得到的格调分析模型,更能够得到符合用户需求的分析结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种视频格调识别方法的流程示意图;

图2示出了一种格调分析模型的结构示意图;

图3示出了本发明实施例提供的一种格调分析模型的训练方法的流程示意图;

图4示出了一种对格调分析模型进行训练的示意图;

图5示出了本发明实施例提供的一种视频格调识别装置的结构示意图;

图6示出了本发明实施例提供的一种电子设备的结构示意图;

图7示出了本发明实施例提供的分布式系统应用于区块链系统的一个可选的结构示意图;

图8示出了本发明实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、车载设备、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习、大数据处理等技术,具体通过如下实施例进行说明:

参考图1,示出了本发明实施例提供的一种视频格调识别方法的流程示意图,其中,该方法可以应用于服务器或者终端设备上,或者也可以应用于区块链的节点上,在本实施例中,该方法包括:

S101:获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

本实施例中,目标视频的相关信息中可能包括多种信息,例如包括:音频信息、文本信息和图像信息,均能体现视频的不同特征。

其中,目标视频的音频信息的获取方式包括多种,本实施例中不进行限定,例如可以提取任何一个时间段内的视频,或者可以从整段音频中提取音频信息。

其中,目标视频的图像信息的获取方式包括多种,本实施例中不进行限定,例如可以从视频的封面中的提取图像信息,也可以从视频的任意的画面帧中提取信息。

其中,目标视频的文本信息的获取方式包括多种,本实施例中不进行限定,例如可以从视频的标题中提取文本信息,获取从视频的描述信息中提取文本信息。

S102:将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;其中,所述格调信息表征目标视频格调的高低程度。

其中,所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练;其中,所述负反馈视频是用户反馈信息中表示用户感兴趣程度较低的视频。

其中,对于推荐给用户的视频,系统会获取用户对视频的反馈信息,负反馈的信息是获取的用户的反馈信息中的一种,例如包括:用户举报的信息,不感兴趣的信息等。负反馈的信息能够反映用户的需求以及用户对格调较低的视频的排斥程度,其中,负反馈信息对应的视频为负反馈视频。

本实施例中,训练格调分析模型的训练样本是从负反馈视频中获取的,这样更能反映用户的需求。

其中,从负反馈视频中获取与格调相关的视频的方法包括多种,本实施例中不进行限定,例如可以包括如下的两种方法:

方式一:从负反馈视频中挑选具有预设的格调信息的视频;

例如,与预设的格调信息可以包括:内容浅薄、色情、低俗、胡编乱造等。

方式二、从反馈视频中剔除具有与格调无关的预设信息的视频;

其中,与格调无关的视频,例如包括:广告、不感兴趣等。

本实施例中,标准格调信息为训练之前计算的视频格调的高低程度,其中,可以通过计算格调分来表示视频格调的高低程度,优选地,标准格调信息的获取方法包括:

统计第一训练样本中负反馈视频的数量,以及所有负反馈视频对应的负反馈信息的总数量;

通过所述负反馈视频对应的负反馈信息的总数量和服反馈视频的总数量,计算平均格调分;

针对任意一个负反馈视频,通过该负反馈视频对应的负反馈信息的数量和平均格调分,计算该负反馈视频的格调分,并对所述负反馈视频的格调分表示所述负反馈视频的标准格调信息。

举例说明:第一训练样本中负反馈视频的个数为a1,每个负反馈视频可能会有一个或者多个负反馈信息,针对a1个负反馈视频总的负反馈信息的数量为a2,那么负反馈视频的平均负反馈信息的数量为a,a=a2/a1,将负反馈视频平均负反馈信息的数量表示为平均格调分。对于任意一个负反馈视频,假设该负反馈视频包含b个负反馈信息,那么该负反馈视频的格调分c=b/a。

其中,格调分计算时,针对任意一个负反馈视频,若该负反馈视频的负反馈信息的数量大于平均负反馈信息的数量,那么将负反馈视频的格调分表示为1,例如若b>a,则c=1。

本实施例中,第一训练样本中,每个负反馈视频的标准格调信息是通过格调分表示的,在通过第一训练样本对格调分析模型进行训练时,以待训练的格调预测模型对所述第一训练样本的格调信息的预测结果趋近于所述第一训练样本的标准格调信息为训练目标。

本实施例中,通过格调分析模型对待识别视频进行预测,得到待识别视频的格调信息,其中,该格调信息表征了视频格调的高低程度,这样可以通过识别视频的格调的高低的程度,更加准确的对用户进行视频推荐。并且,训练该调性预测模型的第一训练样本为从负反馈视频中获取的与格调相关的视频,其中,负反馈视频表示用户感兴趣程度较低的视频,由此,从用户的负反馈视频中获取的训练样本更加能够代表用户的实际需求,这样通过该训练样本训练得到的格调分析模型,更能够得到符合用户需求的预测结果。

进一步的,训练样本的标准格调信息是通过计算格调分确定的,其中格调分是通过负反馈视频的反馈信息的数量计算得到的,由此,可以自动化的计算训练样本中每个负反馈视频的格调分数,由此无需人工对训练样本进行标记,提升了训练样本标记的效率。

本实施例中,技术人员发现,现有技术中通常采用单模态的格调分析模型,这样的话,模型可以利用的特征有限,预测的结果的精确度也有待提高,那么为了提高预测结果的精确度,本实施例中,采用了多模态融合的模型,其中,参考图2,格调分析模型包括:图像处理模块201、文本处理模块202、音频处理模块203和融合模块204;所述图像处理模块201用于从图像信息中提取图像特征,所述文本处理模块202用于从文本信息中提取文本特征,所述音频处理模块203用于从音频信息中提取音频特征,所述融合模块用于将图像特征、文本特征和音频特征进行特征融合,得到融合特征,以通过融合特征分析视频的格调信息。

其中,图像处理模块可以采用多种能够对图像进行处理的模块,例如,在一个实施例中,图像处理模块的模型结构包括:输入模块、第一卷积模块、第一池化层、第二卷积模块、第二池化层、第三卷积模块组、第四卷积模块组、第五卷积模块组和第三池化层;

其中,第一卷积模块包括多个卷积核较小的卷积层,例如可以包括3个3*3的卷积层;第二卷积模块包括多个不同尺度、且卷积核较小的卷积层,例如包括一个1*1的卷积核和一个3*3的卷积核;第一池化层例如可以为最大池化层;第二池化层例如可以为最大池化层;第三卷积模块组包括多个卷积模块,第三卷积模块组中的每个卷积模块分别采用不同尺度的卷积层,并且,为了进一步的提高运算效率,本实施例中,每个卷积模块中采用1*n和n*1的卷积层进行拼接,从而实现n*n的卷积层的作用。第四卷积模块组和第五卷积模块组与第三卷积模块组的结构类似,这里不再详述,但是第三卷积模块组、第四卷积模块组和第五卷积模块组用于分别实现对不同尺度的特征进行处理;第三池化层例如可以为最大池化层。

其中,在实际使用时,图像处理模块的第三池化层与融合模块相连接,将第三池化层输出的图像特征发送给融合模块;当对图像处理模块进行单独训练时,图像处理模块还包括:softmax层,用于输出格调信息。

由此可知,图像处理模块中,通过采用卷积核较小的卷积层进行卷积处理,降低了运算量,提高了运算效率,并且,本实施例中的3个卷积模块组,分别采用多个卷积层实现不同尺度的卷积操作,这样,在相同尺寸的感受野中叠加更多的卷积,能提取到更丰富的特征。

其中,文本处理模块可以采用多种能够对语言进行处理的模块,在一个实施例中,该文本处理模块的结构可以包括:

嵌入层、编码层和池化层,编码层采用多头自注意力机制;其中,嵌入层用于将输入的序列转换成连续分布式表示,编码层用于对每个序列进行非线性表示,池化层用于取出预设的符号作为输出的文本特征。

其中,多层自注意力机制是集成了多个自注意力机制,每个注意力机制相互独立,共同决定最终的输出结果,由此,在编码层采用多头自注意力机制,通过多头自注意力机制中的并行处理方式,大大减少了训练时间,同时有效的提升了网络性能。

其中,在实际使用时文本处理模块中的池化层与融合模块相连接,将提取到的文本特征发送给融合模块。但是,在对文本处理模块进行单独训练时,文本处理模块还包括softmax层,用于输出格调信息。

其中,音频处理模块可以采用多种能够对音频信息进行处理的模型,在一个实施例中,该音频处理模块的结构可以包括:

第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积模块、第三池化层、第四卷积模块、第四池化层以及全连接层,其中,第三卷积模块包括多个卷积层,第四卷积模块包括多个卷积层,全连接层可以包括第一全连接层、第二全连接层和第三全连接层。

其中,为了提升音频特征提取的准确度,在通过音频处理模块处理之前,还可以通过频谱生成模块,将音频信息转换成频谱图像。

在实际应用时,音频处理模块的第三全连接层与融合模块相连接,第三全连接层输出提取出的音频特征。当对音频处理模块进行单独训练时,在所述第三全连接层后连接softmax层,用于输出格调信息。

其中,融合模块可以采用多种不同的融合方法,例如可以采用直接对不同特征进行拼接的方法,一种具体的实现方式可以为加权融合方法。

并且,图像特征、音频特征和文本特征通过融合模块进行特征融合后,还可以再经过一个全连接层和一个softmax层,以对融合的特征进行分析输出视频的格调信息。

由此,通过上述多模态的组合方式,在降低运算量的同时,能够提取到更加准确的图像特征、文本特征和音频特征,由此,在优化了提取的特征的情况下,进一步提升了格调分析模型对格调信息分析的准确性。

其中,对该格调分析模型进行训练时,可以通过多种方式进行训练,本实施例中不进行限定,优选的,可以包括如下的两种方式:

方式一:

参考图3,示出了本发明实施例提供的一种格调分析模型的训练方法的流程示意图,在本实施例中,该方法包括:

S301:将从负反馈视频中获取的与格调相关的视频的图像信息作为第二训练样本,以待训练的图像处理模块对所述第二训练样本的格调信息的分析结果趋近于所述第二训练样本的标准格调信息为目标,对所述图像处理模块进行训练,得到已训练的图像处理模块;

S302:将从负反馈视频中获取的与格调相关的视频的文本信息作为第三训练样本,以待训练的文本处理模块对所述第三训练样本格调信息的分析结果趋近于所述第三训练样本的标准格调信息为目标,对文本处理模块进行训练,得到已训练的文本处理模块;

S303:将从负反馈视频中获取的与格调相关的视频的音频信息作为第四训练样本,以待训练的文本处理模块对所述第四训练样本分析的格调信息的预测结果趋近于所述第四训练样本的标准格调信息为目标,对音频处理模块进行训练,得到已训练的音频处理模块;

S304:将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息。

其中,参考图4,示出了对融合模块进行训练的示意图,其中,通过图像处理模块、文本处理模块和音频处理模块对融合模块进行训练的过程可以包括:

获取第五训练样本中每个视频的图像信息、文本信息和音频信息;

将第五训练样本中每个视频的图像信息输入到已训练的图像处理模块中,得到图像特征;

将第五训练样本中每个视频的文本信息输入到已训练的文本处理模块中,得到文本特征;

将第五训练样本中每个视频的音频信息输入到已训练的音频处理模块中,得到音频特征;

通过第五训练样本中每个视频的图像特征、文本特征和音频特征对融合模块进行训练,以使所述融合模块分析的第五训练样本的格调信息趋近于第五训练样本的标准格调信息。

其中,图像处理模块经过训练后,能够从图像信息中提取出更加趋近于标准格调信息的图像特征;文本处理模块经过训练后,能够从文本信息中提取出更加趋近于标准格调信息的文本特征;音频处理模块经过训练后,能够从音频信息中提取出更加趋近于标准格调信息的音频特征。那么再通过训练后的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练时,由于图像处理模块、文本处理模块和音频处理模块提取出的相应的特征更加趋近于标准格调信息,那么再通过这些特征训练训练融合模块,训练的融合模块趋近于标准格调信息的程度会更好,即训练得到的格调分析模型的预测结果的准确度更高。

本实施例中,上述提到的第一训练样本、第二训练样本、第三训练样本、第四训练样本以及第五训练样本可以是相同的,也可以是不同的,本实施例中不进行限定。

本实施例中,第一训练样本、第二训练样本、第三训练样本、第四训练样本以及第五训练样本的标准格调信息,可以通过格调分表示,格调分可以通过如下的方式计算,包括:

统计目标训练样本中负反馈视频的数量,以及所有负反馈视频对应的负反馈信息的总数量;所述目标训练样本为所述第一训练样本、第二训练样本、第三训练样本或者第四训练样本;

通过所述负反馈视频对应的负反馈信息的总数量和负反馈视频的总数量,计算平均格调分;

针对任意一个负反馈视频,通过该负反馈视频对应的负反馈信息的数量和平均格调分,计算该负反馈视频的格调分,并以所述负反馈视频的格调分表示所述负反馈视频的标准格调信息。

其中,格调分的计算方法在上文中进行了详细的介绍,本实施例中不再赘述。

本实施例中,在对由不同模态构成的格调分析模型进行训练时,采用对每个模态单独训练的方式进行训练,格调分析模型包括:图像处理模块、文本处理模块和音频处理模块以及融合模块,其中,先单独对图像处理模块、文本处理模块和音频处理模块进行单独训练,再通过训练好的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练。这样,由于图像处理模块、文本处理模块和音频处理模块提取出的相应的特征更加趋近于标准格调信息,那么再通过这些特征训练训练融合模块,训练的融合模块趋近于标准格调信息的程度会更加,即训练得到的格调分析模型的预测结果的准确度更高。

进一步的,训练样本的标准格调信息是通过计算格调分确定的,其中格调分是通过负反馈视频的反馈信息的数量计算得到的,由此,可以自动化的计算训练样本中每个负反馈视频的格调分数,由此无需人工对训练样本进行标记,提升了训练样本标记的效率。

方式二:

从负反馈视频中获取的与格调相关的视频作为第六训练样本,获取所述第六训练样本中每个视频的图像信息、文本信息和音频信息;

将第六训练样本中每个视频的图像信息、文本信息和音频信息和每个训练样本的标准格调信息输入到待训练的格调分析模型中,对待训练的格调分析模型进行训练。

本实施例中,通过训练样本对格调分析模型中的图像处理模块、文本处理模块、音频处理模块和融合模块同时进行训练。

参考图5,示出了本发明实施例提供的一种视频格调识别装置的结构示意图,在本实施例中,该装置包括:

获取单元501,用于获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

预测单元502,用于将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;所述格调信息表征目标视频的格调的高低程度;

所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练后;其中,所述负反馈视频是从用户反馈信息中表示用户感兴趣程度较低的视频。

可选的,所述格调分析模型,包括:

图像处理模块、文本处理模块、音频处理模块和融合模块;所述图像处理模块用于从图像信息中提取图像特征,所述文本处理模块用于从文本信息中提取文本特征,所述音频处理模块用于从音频信息中提取音频特征,所述融合模块用于将图像特征、文本特征和音频特征进行融合,并通过融合后的特征分析视频的格调信息。

可选的,还包括:

第一格调分析模型训练单元,用于:

将从负反馈视频中获取的与格调相关的视频的图像信息作为第二训练样本,以待训练的图像处理模块对所述第二训练样本的格调信息的预测结果趋近于所述第二训练样本的标准格调信息为目标,对所述图像处理模块进行训练,得到已训练的图像处理模块;

将从负反馈视频中获取的与格

调相关的视频的文本信息作为第三训练样本,以待训练的文本处理模块对所述第三训练样本预测的格调信息的预测结果趋近于所述第三训练样本的标准格调信息为目标,对文本处理模块进行训练,得到已训练的文本处理模块;

将从负反馈视频中获取的与格调相关的视频的音频信息作为第四训练样本,以待训练的文本处理模块对所述第四训练样本预测的格调信息的预测结果趋近于所述第四训练样本的标准格调信息为目标,对音频处理模块进行训练,得到已训练的音频处理模块;

将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息。

可选的,所述第一格调分析模型训练单元包括:

融合模块训练子单元,用于:

获取第五训练样本中每个视频的图像信息、文本信息和音频信息;

将第五训练样本中每个视频的图像信息输入到已训练的图像处理模块中,得到图像特征;

将第五训练样本中每个视频的文本信息输入到已训练的文本处理模块中,得到文本特征;

将第五训练样本中每个视频的音频信息输入到已训练的音频处理模块中,得到音频特征;

通过第五训练样本中每个视频的图像特征、文本特征和音频特征对融合模块进行训练,以使所述融合模块预测的第五训练样本的格调信息趋近于第五训练样本的标准格调信息。

可选的,还包括:

统计单元,用于统计目标训练样本中负反馈视频的数量,以及所有负反馈视频对应的负反馈信息的总数量;所述目标训练样本为所述第一训练样本、第二训练样本、第三训练样本或者第四训练样本;

第一计算单元,用于

通过所述负反馈视频对应的负反馈信息的总数量和负反馈视频的总数量,计算平均格调分;

第二计算单元,用于针对任意一个负反馈视频,通过该负反馈视频对应的负反馈信息的数量和平均格调分,计算该负反馈视频的格调分,并以所述负反馈视频的格调分表示所述负反馈视频的标准格调信息。

可选的,还包括:

第二格调分析模型训练单元,包括:

从负反馈视频中获取的与格调相关的视频作为第六训练样本,获取所述第六训练样本中每个视频的图像信息、文本信息和音频信息;

将第六训练样本中每个视频的图像信息、文本信息和音频信息和每个训练样本的标准格调信息输入到待训练的格调分析模型中,对待训练的格调分析模型进行训练。

本实施例的装置,通过格调分析模型对目标视频进行分析,得到目标视频的格调信息,其中,该格调信息表征了目标视频的格调的高低程度,这样可以通过识别到的视频的格调的高低程度,更加准确的对用户进行视频推荐。并且训练该格调分析模型的第一训练样本为从负反馈视频中获取的与格调相关的视频,其中,负反馈视频表示用户感兴趣程度较低的视频,由此,从负反馈视频中获取到的训练样本更加能够代表用户的实际需求,这样通过该训练样本训练得到的格调分析模型,更能够分析出符合用户需求的结果。

参考图6,示出了本发明实施例提供的一种电子设备的结构示意图,在本实施例中,该电子设备包括:

处理器601和存储器602;

其中,所述处理器602用于执行所述存储器601中存储的程序;

所述存储器用于存储程序,所述程序至少用于:

获取目标视频的相关信息;所述相关信息包括:音频信息、文本信息和图像信息中的至少一种;

将所述目标视频的相关信息输入到格调分析模型中,得到所述目标视频的格调信息;所述格调信息表征目标视频格调的高低程度;所述格调分析模型通过如下方式训练得到:将从负反馈视频中获取的与格调相关的视频作为第一训练样本,以待训练的格调分析模型对所述第一训练样本的格调信息的分析结果趋近于所述第一训练样本的标准格调信息为训练目标,对所述格调分析模型进行训练;其中,所述负反馈视频是用户反馈信息中表示用户感兴趣程度较低的视频。

可选地,所述格调分析模型,包括:

图像处理模块、文本处理模块、音频处理模块和融合模块;所述图像处理模块用于从图像信息中提取图像特征,所述文本处理模块用于从文本信息中提取文本特征,所述音频处理模块用于从音频信息中提取音频特征,所述融合模块用于将图像特征、文本特征和音频特征进行融合,并通过融合后的特征分析视频的格调信息。

可选地,所述格调分析模型的训练过程包括:

将从负反馈视频中获取的与格调相关的视频的图像信息作为第二训练样本,以待训练的图像处理模块对所述第二训练样本的格调信息的预测结果趋近于所述第二训练样本的标准格调信息为目标,对所述图像处理模块进行训练,得到已训练的图像处理模块;

将从负反馈视频中获取的与格

调相关的视频的文本信息作为第三训练样本,以待训练的文本处理模块对所述第三训练样本预测的格调信息的预测结果趋近于所述第三训练样本的标准格调信息为目标,对文本处理模块进行训练,得到已训练的文本处理模块;

将从负反馈视频中获取的与格调相关的视频的音频信息作为第四训练样本,以待训练的文本处理模块对所述第四训练样本预测的格调信息的预测结果趋近于所述第四训练样本的标准格调信息为目标,对音频处理模块进行训练,得到已训练的音频处理模块;

将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息。

可选地,所述将从负反馈视频中获取的与格调相关的视频作为第五训练样本,通过已训练的图像处理模块、文本处理模块和音频处理模块对融合模块进行训练,以使融合模块对第五训练样本的格调信息的预测结果趋近于所述第五训练样本的标准格调信息,包括:

获取第五训练样本中每个视频的图像信息、文本信息和音频信息;

将第五训练样本中每个视频的图像信息输入到已训练的图像处理模块中,得到图像特征;

将第五训练样本中每个视频的文本信息输入到已训练的文本处理模块中,得到文本特征;

将第五训练样本中每个视频的音频信息输入到已训练的音频处理模块中,得到音频特征;

通过第五训练样本中每个视频的图像特征、文本特征和音频特征对融合模块进行训练,以使所述融合模块预测的第五训练样本的格调信息趋近于第五训练样本的标准格调信息。

可选地,所述标准格调信息的获取方法包括:

统计目标训练样本中负反馈视频的数量,以及所有负反馈视频对应的负反馈信息的总数量;所述目标训练样本为所述第一训练样本、第二训练样本、第三训练样本或者第四训练样本;

通过所述负反馈视频对应的负反馈信息的总数量和负反馈视频的总数量,计算平均格调分;

针对任意一个负反馈视频,通过该负反馈视频对应的负反馈信息的数量和平均格调分,计算该负反馈视频的格调分,并以所述负反馈视频的格调分表示所述负反馈视频的标准格调信息。

可选地,格调分析模型的训练过程包括:

从负反馈视频中获取的与格调相关的视频作为第六训练样本,获取所述第六训练样本中每个视频的图像信息、文本信息和音频信息;

将第六训练样本中每个视频的图像信息、文本信息和音频信息和每个训练样本的标准格调信息输入到待训练的格调分析模型中,对待训练的格调分析模型进行训练。

本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器加载并执行,实现上述的视频格调识别方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。

本申请还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述动画播放方法方面或动画播放装置方面的各种可选实现方式中所提供方法,具体实现过程可以参照上述相应实施例的描述,不做赘述。在上一个实施例中,提供了一种电子设备,该电子设备可以是服务器或者是终端设备,或者该电子设备还可以是一个分布式系统的一个节点,其中,该分布式系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例,参见图7,图7是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer ToPeer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。

参见图7示出的区块链系统中各节点的功能,涉及的功能包括:

1)路由,节点具有的基本功能,用于支持节点之间的通信。

节点除具有路由功能外,还可以具有以下功能:

2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。

例如,应用实现的业务包括:

2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;

2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。

2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。

3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。

参见图8,图8是本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:剧集及时通知

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!