视频检测方法、装置及电子设备

文档序号：142708 发布日期：2021-10-22 浏览：30次 >En<

阅读说明：本技术 视频检测方法、装置及电子设备 (Video detection method and device and electronic equipment ) 是由王磊薛子育刘庆同郭沛宇张乃光于 2020-04-22 设计创作，主要内容包括：本公开涉及视频检测方法、装置及电子设备。该方法包括：获取视频的标识信息并将其与预设标识库中的信息进行比较,得到第一检测结果,其中,标识信息包括视频指纹、视频水印中的至少一种；将视频输入预设的深度伪造鉴别模型,得到第二检测结果；根据第一检测结果和第二检测结果,获得第三检测结果,其中,第三检测结果表示视频是否通过审核。该方法有利于实现对伪造音视频的鉴别和判定,对提升行业深度伪造内容防范有一定帮助。(The disclosure relates to a video detection method and device and electronic equipment. The method comprises the following steps: acquiring identification information of a video and comparing the identification information with information in a preset identification library to obtain a first detection result, wherein the identification information comprises at least one of video fingerprints and video watermarks; inputting the video into a preset depth forgery identification model to obtain a second detection result; and obtaining a third detection result according to the first detection result and the second detection result, wherein the third detection result indicates whether the video passes the audit. The method is beneficial to realizing the identification and judgment of the forged audio and video and has certain help for improving the deep forged content of the industry.)

视频检测方法、装置及电子设备

技术领域

本公开涉及视频技术领域，更具体地，涉及一种视频检测方法、一种视频检测装置以及一种电子设备。

背景技术

随着深度学习技术的不断发展，深度伪造技术逐步成熟。深度伪造技术是指利用深度模型将图片或视频合并叠加到源图片或视频上，借助神经网络技术进行大量的样本学习，将个人的声音、面部表情及身体动作拼接合成虚假内容的人工智能技术。这种技术能对声音、图像或视频进行数字处理以模仿某特定人物，并且随着输入神经网络的训练样本量不断增加，训练生成的数据和图像会越来越逼真，以至于观察者最终无法通过肉眼明辨真伪。深度伪造技术在广播电视和网络视听行业有很多应用场景，包括替身演员换脸、虚拟主持人等。但是，深度伪造技术的滥用，也同时为国家安全带来了极大的风险。一条合成的虚假视频可能影响国际安全秩序，增加战争爆发的风险和对国际局势误判的几率。综上，广播电视和网络视听行业有必要防范和应对深度伪造技术的潜在风险，保障安全播出。

因此，有必要提出一种对视频进行检测处理的新的技术方案。

发明内容

本公开的一个目的是提供一种对视频进行检测处理的新的技术方案。

根据本公开的第一方面，提供了一种视频检测方法，包括：

获取所述视频的标识信息并将其与预设标识库中的信息进行比较，得到第一检测结果，其中，所述标识信息包括视频指纹、视频水印中的至少一种；

将所述视频输入预设的深度伪造鉴别模型，得到第二检测结果；

根据所述第一检测结果和所述第二检测结果，获得第三检测结果，其中，所述第三检测结果表示所述视频是否通过审核。

可选地，在所述获得第三检测结果之后，还包括：

在所述第三检测结果表示所述视频未通过审核的情况下，将所述视频发送至预设的终端设备，以对所述视频进行人工审核处理。

可选地，所述标识信息包括视频指纹；

所述获取所述视频的标识信息并将其与预设标识库中的信息进行比较，包括以下至少一项：

将所述视频指纹与预设标识库中的视频白名单进行比较；

将所述视频指纹与预设标识库中的视频黑名单进行比较。

可选地，所述标识信息包括视频水印；

所述获取所述视频的标识信息并将其与预设标识库中的信息进行比较，包括：

将所述视频水印与所述预设标识库中的发布者白名单进行比较。

可选地，所述将所述视频输入预设的深度伪造鉴别模型，包括以下至少一项：

获取所述视频中的关键人物并将其输入所述深度伪造鉴别模型；

将所述视频的完整场景输入所述深度伪造鉴别模型。

可选地，所述获取所述视频中的关键人物，包括：

通过人脸识别技术提取所述视频中的人脸图像；

将所述人脸图像与预设的关键人物图像进行比较，得到所述关键人物。

可选地，所述根据所述第一检测结果和所述第二检测结果，获得第三检测结果，包括：

在所述第一检测结果和所述第二检测结果中的至少一项不满足相关要求的情况下，确定所述第三检测结果为所述视频未通过审核。

可选地，所述人工审核处理包括以下至少一项：将所述视频标记为深度伪造视频、将所述视频下线、将所述视频替换为原始视频。

根据本公开的第二方面，提供了一种视频检测装置，包括：

第一检测模块，用于获取所述视频的标识信息并将其与预设标识库中的信息进行比较，得到第一检测结果，其中，所述标识信息包括视频指纹、视频水印中的至少一种；

第二检测模块，用于将所述视频输入预设的深度伪造鉴别模型，得到第二检测结果；

第三检测模块，用于根据所述第一检测结果和所述第二检测结果，获得第三检测结果，其中，所述第三检测结果表示所述视频是否通过审核。

根据本公开的第三方面，提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现本公开第一方面所述的视频检测方法。

本实施例中的视频检测方法，综合采用了视频标识鉴别、深度伪造鉴别等步骤，能够对视频真伪和可信程度进行自动检测，检测准确度高，有利于实现对伪造音视频的鉴别和判定，对提升行业深度伪造内容防范有一定帮助。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起用于解释本公开的原理。

图1是可用于实现本公开实施例的电子设备的示意图。

图2是根据本公开实施例的视频检测方法的流程图。

图3是根据本公开实施例的一个例子的示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1示出了可用于实现本公开的实施例的电子设备的硬件配置。

参见图1，电子设备1000包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500和输入装置1600。处理器1100例如可以是中央处理器CPU、微控制单元MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口等。通信装置1400例如是有线网卡或无线网卡。显示装置1500例如是液晶显示屏。输入装置1600例如包括触摸屏、键盘、鼠标、麦克风等。

应用于本说明书的实施例中，电子设备1000的存储器1200用于存储指令，该指令用于控制处理器1100进行操作以支持实现根据本说明书任意实施例的方法。本领域技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本领域技术人员应当理解，尽管在图1中示出了电子设备1000的多个装置，但是，本说明书实施例的电子设备1000可以仅涉及其中的部分装置，例如，只涉及处理器1100、存储器1200和通信装置1400。

图1所示的电子设备1000例如是用于提供视频检测服务的服务器。

图1所示的硬件配置仅是解释性的，并且决不是为了要限制本公开、其应用或用途。

<方法实施例>

本实施例提供了一种视频检测方法，例如由图1所示的电子设备1000实施。

如图2所示，该方法包括以下步骤S1100-S1300。

在步骤S1100中，获取视频的标识信息并将其与预设标识库中的信息进行比较，得到第一检测结果，其中，标识信息包括视频指纹、视频水印中的至少一种。

本实施例中，视频的标识信息包括视频指纹、视频水印中的至少一种。

视频指纹(Video Fingerprinting)是指视频的唯一标识。在一个例子中，视频指纹服务基于视频指纹技术，根据视频内容生成一串可唯一标识当前视频的指纹字符，具有高稳定性，有效避免视频文件的格式转换、编辑、裁剪拼接、压缩旋转等操作的影响。可用于视频相似查重、视频版权、广告识别等多种场景。

在一个例子中，标识信息为视频指纹。在该例子中，上述获取视频的标识信息并将其与预设标识库中的信息进行比较，包括以下至少一项：将视频指纹与预设标识库中的视频白名单进行比较；将视频指纹与预设标识库中的视频黑名单进行比较。

在上述例子中，预设视频标识库中包括视频白名单和/或视频黑名单。其中，视频白名单是允许播放的视频的清单，视频黑名单是禁止播放的视频的清单。视频白名单和视频黑名单例如来源于从各种媒体获得的可播片段或者禁播片段。

在上述例子中，如果待检测视频的视频指纹与视频白名单中的视频指纹相匹配，则确定待检测视频为可播视频。如果待检测视频的视频指纹与视频黑名单中的视频指纹相匹配，则确定待检测视频为禁播视频。如果待检测视频的视频指纹既不与视频白名单中的视频指纹相匹配，也不与视频黑名单中的视频指纹相匹配，则确定待检测视频为未知内容视频。也就是说，第一检测结果可以包括可播视频、禁播视频和未知内容视频。

在一个例子中，标识信息为视频水印。在该例子中，上述获取视频的标识信息并将其与预设标识库中的信息进行比较，包括：将视频水印与预设标识库中的发布者白名单进行比较。

在上述例子中，预设视频标识库中包括发布者白名单。其中，发布者白名单是允许播放的发布者的清单，例如经过认证的“XX网”“XX报”等。

在上述例子中，如果待检测视频的视频水印与发布者白名单中的水印内容相匹配，则确定待检测视频为认证渠道视频。如果待检测视频的视频水印不与发布者白名单中的水印内容相匹配，则确定待检测视频为未知渠道视频。也就是说，第一检测结果可以包括认证渠道视频和未知渠道视频。

在步骤S1200中，将视频输入预设的深度伪造鉴别模型，得到第二检测结果。

上述深度伪造鉴别模型用于鉴别视频是否被进行过深度伪造处理。在一个例子中，深度伪造鉴别模型通过机器学习训练方法得到，其训练过程如下。首先，获取训练样本，每一训练样本包括一个视频以及表示该视频是否为深度伪造的标签。其次，建立初始模型，该初始模型例如为神经网络模型。最后，通过大量训练样本对初始模型进行机器学习训练，直至初始模型的参数达到收敛状态，得到上述深度伪造鉴别模型。

在一个例子中，将视频输入预设的深度伪造鉴别模型，包括以下至少一项：获取视频中的关键人物并将其输入深度伪造鉴别模型；将视频的完整场景输入深度伪造鉴别模型。

在上述例子的一种情形中，重点关注视频中的关键人物(例如著名人物)是否被深度伪造，因此获取视频中的关键人物并将其输入深度伪造鉴别模型。上述获取视频中的关键人物，例如是获取包括关键人物的视频片段并将关键人物对应的视频区域标示出来。

视频中的关键人物例如通过以下方式获取：通过人脸识别技术提取视频中的人脸图像；将人脸图像与预设的关键人物图像进行比较，得到关键人物。上述提取人脸图形可基于现有的人脸识别模型进行，这里不再赘述。

在上述例子的一种情形中，关注视频的整体内容是否为深度伪造，因此将视频的完整场景输入深度伪造鉴别模型。上述完整场景是指视频中每一帧的完整画面。

上述深度伪造鉴别模型可以包括多个子模型，且可以对子模型进行替换、更改、删除、新增等处理。在这种情况下，第二检测结果通过每个子模型的检测结果进行“与”运算得到。例如，只有在每个子模型均判断待检测视频不是深度伪造视频时，才确定待检测视频不是深度伪造视频。

在步骤S1300中，根据第一检测结果和第二检测结果，获得第三检测结果，其中，第三检测结果表示视频是否通过审核。

在一个例子中，根据第一检测结果和第二检测结果，获得第三检测结果，包括：在第一检测结果和第二检测结果中的至少一项不满足相关要求的情况下，确定第三检测结果为视频未通过审核。其中，第一检测结果的相关要求例如是待检测视频的标识信息与白名单匹配。第二检测结果的相关要求例如是待检测视频不属于深度伪造视频。

在一个例子中，可以对第一检测结果和第二检测结果进行综合判定，其判定过程如下文。

首先，判断待检测视频的视频指纹是否与视频指纹黑名单或者视频指纹白名单匹配。

如果待检测视频的视频指纹与视频指纹黑名单匹配，则判断第三检测结果为未通过审核。

如果待检测视频的视频指纹与视频指纹白名单匹配，则进一步判断关键人物是否为深度伪造。如果待检测视频不包含关键人物或者关键人物不属于深度伪造，则判断待检测视频通过审核。如果关键人物属于深度伪造，则判断第三检测结果为通过审核。

如果待检测视频属于未知内容视频，则判断视频水印是否与发布者白名单匹配。如果视频水印与发布者白名单匹配，则进一步判断关键人物是否为深度伪造。如果待检测视频不包含关键人物或者关键人物不属于深度伪造，则判断待检测视频通过审核。如果关键人物属于深度伪造，则判断第三检测结果为通过审核。如果视频水印与发布者白名单不匹配，则判断第三检测结果为未通过审核。

在一个例子中，在获得第三检测结果之后，还包括：在第三检测结果表示视频未通过审核的情况下，将视频发送至预设的终端设备，以对视频进行人工审核处理。

人工审核处理的结果例如是标记、下线、替换等。其中，标记是指在视频上增加标记，标记视频为深度伪造视频；下线是指针对不良深度伪造内容进行的下线处理；替换是指针对不良深度伪造内容中包含造谣内容的用未进行深度伪造处理的内容替换下线内容继续播出。此外，对人工审核的处理日志进行记录以备相关部门审查。

在上述例子中，对于系统自动判断为未通过审核的而人工审核认为可以播出的视频，可以基于人工审核结果确定是否可以播出。

图3是根据本法实施例的一个具体例子的示意图。如图3所示，该例子中视频检测方法的实施过程如下：首先，对视频内容进行指纹提取，与黑/白名单指纹库进行指纹比对，得到指纹比对结果，比对结果包括：黑名单内容、白名单内容、未知内容。接下来，对视频内容进行水印提取，并结合水印信息库进行水印分析，得到分析结果，分析结果包括：官方渠道内容、未知内容。其次，对视频内容采用人脸识别技术结合关键人物库进行关键人物识别，对识别出的关键人物进行关键人物深度伪造鉴别，判断结果包括：有关键人物且已篡改、有关键人物未检测出篡改、无关键人物。再次，对视频内容调用通用深度伪造鉴别进行识别，识别结果包括：检测到篡改、未检测到篡改。之后，综合指纹比对、水印提取、关键人物识别与深度伪造鉴别、通用深度伪造鉴别结果进行综合判定。最后，根据综合判定结果进行人工审核，人工审核后给出处置方案。

在上述例子中，综合判定的规则如下：

1.判断为黑名单的视频应采用下线处理机制进行处理。

2.判断为白名单的视频：

(1)不包含关键人物则直接标记为审核通过；

(2)包含关键人物、未识别出篡改则标记为审核通过；

(3)包含关键人物、识别出篡改则应由人工审核确认后通过。

3.判断为未知来源的视频存在以下情况：

(1)水印分析结果为官方渠道视频的：

a)不包含关键人物则直接标记为审核通过；

b)包含关键人物、未识别出篡改则标记为审核通过；

c)包含关键人物、识别出篡改则应由人工审核确认后通过。

(2)水印分析结果为未知渠道视频的：

a)不包含关键人物的：

—鉴别为深度伪造视频的，应在视频上标注；

—鉴别为非深度伪造视频的，人工审核后判定。

b)包含关键人物的：

—鉴别为深度伪造视频的，应下线处理，并替换辟谣内容；

—鉴别为非深度伪造视频的，人工审核后判定。

<装置实施例>

本实施例提供一种视频检测装置，包第一检测模块、第二检测模块和第三检测模块。

第一检测模块，用于获取视频的标识信息并将其与预设标识库中的信息进行比较，得到第一检测结果，其中，标识信息包括视频指纹、视频水印中的至少一种。

第二检测模块，用于将视频输入预设的深度伪造鉴别模型，得到第二检测结果。

第三检测模块，用于根据第一检测结果和第二检测结果，获得第三检测结果，其中，第三检测结果表示视频是否通过审核。

在一个例子中，视频检测装置还包括发送模块。发送模块用于：在第三检测结果表示视频未通过审核的情况下，将视频发送至预设的终端设备，以对视频进行人工审核处理。

在一个例子中，标识信息包括视频指纹，第一检测模块用于执行以下至少一项：将视频指纹与预设标识库中的视频白名单进行比较；将视频指纹与预设标识库中的视频黑名单进行比较。

在一个例子中，标识信息包括视频水印，第一检测模块用于：将视频水印与预设标识库中的发布者白名单进行比较。

在一个例子中，第二检测模块用于执行以下至少一项：获取视频中的关键人物并将其输入深度伪造鉴别模型；将视频的完整场景输入深度伪造鉴别模型。

在一个例子中，第二检测模块用于：通过人脸识别技术提取视频中的人脸图像；将人脸图像与预设的关键人物图像进行比较，得到关键人物。

在一个例子中，第三检测模块用于：在第一检测结果和第二检测结果中的至少一项不满足相关要求的情况下，确定第三检测结果为视频未通过审核。

在一个例子中，人工审核处理包括以下至少一项：将视频标记为深度伪造视频、将视频下线、将视频替换为原始视频。

<电子设备实施例>

本实施例提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现本公开方法实施例描述的视频检测方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

12页详细技术资料下载

视频检测方法、装置及电子设备

相关技术

网友询问留言