媒体数据处理方法、装置、电子设备及计算机存储介质

文档序号:1937608 发布日期:2021-12-07 浏览:16次 >En<

阅读说明:本技术 媒体数据处理方法、装置、电子设备及计算机存储介质 (Media data processing method and device, electronic equipment and computer storage medium ) 是由 张斌杰 李昱 袁春 徐得景 赵珣 单瀛 于 2021-04-16 设计创作,主要内容包括:本申请公开了一种媒体数据处理方法、装置、电子设备及计算机存储介质,涉及人工智能及云技术领域,该方法包括:获取待处理文本和待处理视频;提取待处理文本对应的全局文本特征和局部文本特征,以及待处理视频的第一视频特征,将全局文本特征融合到第一视频特征中,得到第二视频特征;根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段。根据本申请的方法,由于基于全局文本特征和局部文本特征两个粒度的特征,可以更全面的描述待处理文本的全部信息,则通过全局文本特征和局部文本特征确定的目标片段与待处理文本更加匹配,语义更加接近。(The application discloses a media data processing method, a device, electronic equipment and a computer storage medium, which relate to the technical field of artificial intelligence and cloud, and the method comprises the following steps: acquiring a text to be processed and a video to be processed; extracting global text features and local text features corresponding to the text to be processed and first video features of the video to be processed, and fusing the global text features into the first video features to obtain second video features; and determining a target fragment matched with the text to be processed from the video to be processed according to the local text characteristics and the second video characteristics. According to the method, because the method is based on the features of two granularities of the global text feature and the local text feature, all information of the text to be processed can be described more comprehensively, and the target segment determined by the global text feature and the local text feature is more matched with the text to be processed, so that the semantics are closer.)

媒体数据处理方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及人工智能及云技术领域,具体而言,本申请涉及一种媒体数据处理方法、装置、电子设备及计算机存储介质。

背景技术

现有技术中,为了从一个视频中获取与文本相匹配的视频片段,通常是基于文本的全局文本特征和视频的视频特征,从视频特征中确定与全局文本特征匹配的视频片段。

现有技术中,由于全局文本特征不能够全面的表征文本的全部信息,由此,基于文本的全局文本特征和视频特征确定的视频片段不够准确,即该视频片段与文本描述不相符。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案,以解决从视频中确定的与文本匹配的视频片段不够准确的问题。

根据本申请的一个方面,提供了一种媒体数据处理方法,该方法包括:

获取待处理文本和待处理视频;

提取待处理文本对应的全局文本特征和局部文本特征,以及待处理视频的第一视频特征,全局文本特征包括待处理文本包含的各短语对应的短语特征,局部文本特征包括待处理文本包含的各单位文本对应的特征;

将全局文本特征融合到第一视频特征中,得到第二视频特征;

根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

根据本申请的另一个方面,提供了一种媒体数据处理装置,该装置包括:

数据获取模块,用于获取待处理文本和待处理视频;

特征提取模块,用于提取待处理文本对应的全局文本特征和局部文本特征,以及待处理视频的第一视频特征,全局文本特征包括待处理文本包含的各短语对应的短语特征,局部文本特征包括待处理文本包含的各单位文本对应的特征;

特征融合模块,用于将全局文本特征融合到第一视频特征中,得到第二视频特征;

目标片段确定模块,用于根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

根据本申请的再一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本申请的媒体数据处理方法。

根据本申请的又一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请的媒体数据处理方法。

本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述媒体数据处理方法的各种可选实现方式中提供的方法。

本申请提供的技术方案带来的有益效果是:

本申请提供的媒体数据处理方法、装置、电子设备及计算机可读存储介质,在需要从待处理视频中确定与待处理文本匹配的目标片段时,可先基于待处理文本的全局文本特征和待处理视频的第一视频特征,对第一视频特征进行初步处理,得到第二视频特征,然后基于待处理文本的局部文本特征和第二视频特征,从待处理视频中的各视频片段中确定与待处理文本匹配的目标片段,由于全局文本特征和局部文本特征可以从不同粒度,更全面的描述待处理文本的全部信息,由此,本申请方案中,通过不同粒度的文本特征(全局文本特征和局部文本特征)确定的目标片段与待处理文本更加匹配,语义更加接近。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种媒体数据处理方法的流程示意图;

图2为本申请一个实施例提供的一种待处理文本和待处理视频的特征调节过程示意图;

图3为本申请一个实施例提供的一种神经网络模型的网络结构示意图;

图4为本申请一个实施例提供的一种编码器和解码器中数据处理流程示意图;

图5为本申请一个实施例提供的一种媒体数据处理方法的实施环境的示意图;

图6为本申请一个实施例提供的又一种媒体数据处理方法的实施环境的示意图;

图7为本申请一个实施例提供的一种媒体数据处理装置的结构示意图;

图8为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请实施例是为了在视频中准确获取与文本语义表述一致的视频片段而提供的一种媒体数据处理方法,该方法可以适用于任何需要确定待处理视频中与待处理文本对应的视频片段的场景中,该方法所涉及的待处理文本中各短语的短语特征以及待处理视频和待处理文本对应的多模态特征可通过人工智能技术实现,具体涉及到人工智能技术中的机器学习和深度学习技术等领域,该方法中所涉及的数据处理可通过云技术实现。

其中,在本申请的可选实施例所提供的方案可以基于云技术实现,各可选实施例中所涉及的数据处理(包括但不限于数据计算等),可以采用云计算实现。云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。

作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。

云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请提供的媒体数据处理方法,该方案还可以通过人工智能云服务实现,人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。

这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。本申请中,可以利用平台提供的AI框架和AI基础设施来实现本申请提供的媒体数据处理方法。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反映的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例所提供的方案可以由任一电子设备执行,可以是用户终端设备,也可以是服务器执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请实施例提供了一种可能的实现方式,如图1所示,提供了一种媒体数据处理方法的流程图,该方案可以由任一电子设备执行,例如,本申请实施例的方案可以在终端设备或者服务器上执行,或者由终端设备和服务器交互执行。为描述方便,下面将以服务器作为执行主体为例,对本申请实施例提供的方法进行说明。如图1中所示的流程图,该方法可以包括以下步骤:

步骤S110,获取待处理文本和待处理视频。

其中,本申请中不限定待处理视频和待处理文本的数据来源,可选的,待处理视频可以为未被裁剪过的视频,待处理文本或待处理视频中的至少一项可以是多媒体数据发布平台对应的服务器接收到的用户通过用户终端发送的数据,或者,也可以是多媒体发布平台对应的服务器从预设的存储空间中获取到的数据。

待处理文本可以是包含一种或多种语言的文本,比如,中文,英文等,本申请中不限定待处理文本的语言类型。

步骤S120,提取待处理文本对应的全局文本特征和局部文本特征,以及待处理视频的第一视频特征,全局文本特征包括待处理文本包含的各短语对应的短语特征,局部文本特征包括待处理文本包含的各单位文本对应的特征。

其中,全局文本特征为表征待处理文本整体信息(全文语义信息)的特征,即通过全局文本特征表征待处理文本所要表达的语义,比如,将各短语特征拼接在一起作为待处理文本的全局文本特征,则基于该全局文本特征可以知道待处理文本所要表达的语义。局部文本特征为表征待处理文本局部信息(部分语义信息)的特征。比如,局部文本特征可以为待处理文本包含的各单位文本的特征向量,每个单位文本的特征向量对应的语义表征了待处理文本的局部特征,则通过各单位文本的特征向量来表征待处理文本所要表达的语义。单位文本可以为字或分词中的至少一项。

可选的,如果单位文本包括字,则局部文本特征中可以包括待处理文本中包含的各字的特征。如果单位文本包括分词,则局部文本特征中可以包括待处理文本中包含的各分词的分词特征,由于,一个词可以由至少一个字组成,则可基于各字的特征,得到各分词的分词特征。词相较于字更能准确表达文本的语义,因此,局部文本特征中还可以包括待处理文本中包含的各分词的分词特征。

其中,一个视频片段包括至少两帧相邻的视频帧图像,在本申请的方案中,对待处理视频的划分方式不作限定,比如,可将设定数量的相邻帧视频图像划分为一个视频片段,也可以将设定时长内的相邻帧视频图像划分为一个视频片段。

其中,提取待处理文本的全局文本特征和局部文本特征,以及第一视频特征的方法将在下文描述,在此不再赘述。

步骤S130,将全局文本特征融合到第一视频特征中,得到第二视频特征。

其中,将全局文本特征和第一视频特征融合的目的是基于全局文本特征,从第一视频特征中确定出与待处理文本初步匹配(可以理解为粗粒度定位)的第二视频特征。

步骤S140,根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

其中,局部文本特征可以从局部(可以理解为细粒度)反映出待处理文本的局部信息,基于局部文本特征和第二视频特征,可以从局部捕获局部文本特征与第二视频特征之间的关联关系,即以局部文本特征作为补充,基于局部文本特征所提供的待处理文本的细节特征,可使得确定的目标片段与待处理文本所表达的语义更接近。

在一可选方案中,可基于局部文本特征和第二视频特征的匹配度,确定目标片段,匹配度可以通过特征相似度表征,越相似,表明越匹配,语义越相近。

其中,目标片段指的是待处理视频中的一段视频。

本申请的方案,在需要从待处理视频中确定与待处理文本匹配的目标片段时,可先基于待处理文本的全局文本特征和待处理视频的第一视频特征,对第一视频特征进行初步处理,得到第二视频特征,然后基于待处理文本的局部文本特征和第二视频特征,从待处理视频中的各视频片段中确定与待处理文本匹配的目标片段,由于全局文本特征和局部文本特征可以从不同粒度,更全面的描述待处理文本的全部信息,由此,本申请方案中,通过不同粒度的文本特征(全局文本特征和局部文本特征)确定的目标片段与待处理文本更加匹配,语义更加接近。

本申请的一个实施例中,提取待处理文本的全局文本特征和局部文本特征,包括:

获取待处理文本中的各单位文本、以及各单位文本之间的位置关系;

基于各单位文本和各单位文本之间的位置关系,确定各单位文本的特征,局部文本特征包括各单位文本的特征;

基于各单位文本对应的特征,确定待处理文本中所包含的各短语的短语特征;

融合各短语的短语特征,得到全局文本特征。

其中,各短语的短语特征可以从短语的层面表征待处理文本的全局信息,一个短语的语义相对于词更能准确反映出待处理文本的全局信息,由此,本方案中基于各短语的短语特征来确定全局文本特征。由于一个短语可以由至少一个单位文本组成,则可基于各单位文本的特征确定各短语的短语特征。

本方案中,在提取各单位文本的特征时,还考虑到了各单位文本之间的上下文关系(位置关系),即一个单位文本与该单位文本之前的单位文本和该单位文本之后的单位文本之间的关系,由此,基于各单位文本的特征和各单位文本之间的位置关系,提取得到各单位文本的特征,可以更加准确的表征出待处理文本的语义特征。各单位文本的特征可以从单位文本的层面表征待处理文本的局部信息,因此,可将各单位文本的特征作为局部文本特征。

本申请的一个实施例中,第一视频特征包括待处理视频中多个视频片段的特征;将全局文本特征融合到第一视频特征中,得到第二视频特征,包括:

将全局文本特征和第一视频特征融合,得到融合视频特征;

获取各视频片段在待处理视频中对应的位置信息特征;

将融合视频特征中每一视频片段的特征和每一视频片段各自对应的位置信息特征进行叠加,得到叠加后的视频特征;

基于叠加后的视频特征,得到第二视频特征。

其中,将全局文本特征和第一视频特征融合的目的是基于全局文本特征,确定出第一视频特征中与待处理文本初步匹配的视频特征。

考虑到待处理视频中各视频片段的时序性,即每个视频片段在待处理视频中对应的位置信息,将融合视频特征中每一视频片段的特征和每一视频片段各自对应的位置信息特征进行叠加,使得第二视频特征中包含了各视频片段的位置信息,即叠加后的视频特征是包含各视频片段的位置信息的视频特征。其中,位置信息特征为位置信息对应的特征。

本申请的一个实施例中,第一视频特征包括待处理视频中多个视频片段的特征;基于叠加后的视频特征,得到第二视频特征,包括:

基于叠加后的视频特征中的各视频片段的关联关系,确定各视频片段对应的权重;

对于每一视频片段,基于视频片段对应的权重和叠加后的视频特征中该视频片段对应的特征,得到视频片段对应的增强后的特征;

基于各视频片段对应的增强后的特征,提取得到第二视频特征。

其中,对于一个视频片段,叠加后的视频特征中的各视频片段的关联关系中包括了该视频片段与自己本身之间的关系,以及该视频片段与各视频片段中除该视频片段之外的其他视频片段之间的关系。在叠加后的视频特征中,每个视频片段在待处理视频中的重要程度不同,通过各视频片段对应的权重表征重要程度,权重越大,表示越重要。

增强后的特征指的是基于各视频片段的权重,对各视频片段对应的叠加后的视频特征的重要程度进行调节。

对各视频片段对应的增强后的特征提取是为了得到更深层次的特征表达,即使得第二视频特征包含更多更详细的视频特征。

可选的,可通过自注意力机制确定各视频片段对应的权重。

本申请的一个实施例中,根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段,包括:

确定局部文本特征和第二视频特征的关联特征;

根据关联特征和第二视频特征,对局部文本特征进行调整,得到调整后的局部特征;

根据关联特征和局部文本特征,对第二视频特征进行调整,得到调整后的视频特征;

基于调整后的局部特征和调整后的视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

其中,对于待处理文本和待处理视频,待处理文本可以指导待处理视频关注视频中的重要信息,待处理视频也可以指导待处理文本中关注文本中的重要信息(比如,关键词),由此,基于双向的特征调整,可使得最终得到的目标片段与待处理文本的更加匹配。

其中,关联特征表征了第二视频特征和局部文本特征之间的关联关系,从文本角度,关联特征可以包括局部文本特征中与第二视频特征相关的特征,从视频的角度,关联特征可以包括第二视频特征中与局部文本特征相关的特征。

基于关联特征和第二视频特征,对局部文本特征进行调整指的是基于待处理视频指导待处理文本关注文本中的重要信息,基于关联特征和第二视频特征,可以知道局部文本特征中哪些信息更重要(融合文本的细节信息),基于关联特征和局部文本特征,对第二视频特征进行调整指的是基于待处理文本指导待处理视频关注视频中的重要信息,基于关联特征和局部文本特征,可以知道第二视频特征中哪些信息更重要。

可选的,根据关联特征和第二视频特征,对局部文本特征进行调整,得到调整后的全局特征,具体可以包括:

获取局部文本特征中各单位文本的第一权重;根据关联特征和第二视频特征,对局部文本特征中各单位文本的第一权重进行调整,基于各单位文本的特征以及各单位文本对应的调整后的权重,得到调整后的局部特征。

对局部文本特征的调整可理解为对局部文本特征中各单位文本对应的第一权重进行调整,调整后的权重越大,表明对应的单位文本相对于待处理文本越重要。由于第二视频特征是基于全局文本特征和第一视频特征融合得到的,因此,对局部文本特征进行调整,可通过调整后的局部特征捕获第二视频特征中忽略掉的细节(局部)信息。

同理,第一视频特征包括待处理视频中多个视频片段的特征,一个视频片段可由至少一帧视频帧图像组成。根据关联特征和局部文本特征,对第二视频特征进行调整,可以指的是根据关联特征和局部文本特征,对待处理视频中各视频片段对应的第二权重进行调整,调整后的权重越大,表明对应的视频片段相对于待处理视频越重要。

作为一个实施例,参见图2中所示的待处理视频和待处理文本,在本示例中,待处理文本为:一个人正在站着吃东西同时他在看电视。该待处理文本包含的各分词分别为:“一个,人,正在,站着,吃,东西,同时,他在,看,电视”。待处理视频中有一个人正在站着看电视,其中,前几帧视频帧图像中,这个人正在站着看电视的同时,同时还在吃东西,最后几帧视频图像中,这个人只是在站着看电视,并没有吃东西。

在本示例中,通过自注意力机制确定第一权重和第二权重,则图2中所示的视频-文本注意力值即为第一权重,图2中所示的文本-视频注意力值即为第二权重。Grounding为注意力值的有效范围,文本-视频注意力值的有效区域为0到1,视频-文本注意力值的有效范围为0-1。

由图2可知,待处理文本中的分词“吃”和“看”对应的注意力值(调整后的第一权重)比较大(分词上的组线条标记,该标记颜色越深,表明注意力值越大),则待处理文本中的分词“吃”和“看”是待处理文本中相对重要的信息。待处理视频中A和B两帧图像对应的注意力值(调整后的第二权重)比较大(A和B下面的组线条标记,该标记颜色越深,表明注意力值越大),则待处理视频中的A和B两帧图像是待处理视频中相对重要的信息。其中,图A和图B中的人都正在站着看电视,同时在吃东西。

由此,可以基于待处理文本中的分词“吃”和“看”,以及待处理视频中的图像A和图像B,从待处理视频中准确的确定出与待处理文本匹配的目标片段(如图2中所示的第0s至第8.3s对应的视频片段)。

本申请的一个实施例中,第一视频特征包括待处理视频中多个视频片段的特征;基于调整后的局部特征和调整后的视频特征,从待处理视频中确定与待处理文本匹配的目标片段,包括:

根据调整后的局部特征,确定待处理文本对待处理视频的指导信息;

根据指导信息对调整后的视频特征中的各视频片段的特征进行调整,得到第三视频特征;

根据第三视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

其中,调整后的局部文本特征作为全局文本特征的补充,提供了待处理文本中的一些细节信息,因此基于调整后的局部特征所确定的指导信息可以充分传递待处理文本的语义信息。根据指导信息对各视频片段的特征进行调整,指的是从视频片段中过滤掉与文本语义信息无关的特征,得到的第三视频特征,以使得基于第三视频特征确定的目标片段与待处理文本更加匹配。

可选的,根据指导信息对调整后的视频特征中的各视频片段的特征进行调整可以是调整各视频片段的特征对应的权重,通过调整后的权重的大小来表征视频特征的重要程度,需要过滤掉的视频特征,其对应的调整后的权重相对较小,需要保留的视频特征,其对应的调整后的权重相对较大。

本申请的一个实施例中,根据第三视频特征,从待处理视频中确定与待处理文本匹配的目标片段,包括:

根据第三视频特征中包含的各视频片段的特征之间的关联关系,确定各视频片段对应的权重;

基于各视频片段对应的权重,对各视频片段的第三视频特征进行加权,得到第四视频特征;

基于第四视频特征,确定待处理视频中与待处理文本匹配的目标片段的位置信息;

基于位置信息,确定待处理视频中确定与待处理文本匹配的目标片段。

其中,对于一个视频片段对应的第三视频特征,该第三视频特征对应的权重表征了该视频片段在待处理视频中的重要程度,则基于各视频片段对应的权重确定的第四视频特征,可以更加准确的反映出待处理视频中与待处理文本相匹配的视频特征。

其中,位置信息指包括视频片段对应的起始位置和结束位置,具体可通过时间信息表示位置信息,一个视频片段的起始时间和结束时间表征了该视频片段的位置信息。

可选的,基于第四视频特征,可通过预训练好的视频片段确定网络,确定目标片段在待处理视频中所对应的位置信息,基于该位置信息,可确定出目标片段具体是哪一段视频片段。

其中,视频片段确定网络的输入为视频的视频特征,输出为该视频中各视频片段对应的位置信息,该视频片段确定网络可基于以下方式训练:

获取训练数据,训练数据中包括多个携带位置标签的样本视频,对于一个样本视频,该位置标签表征了该样本视频中每个视频片段在该样本视频中对应的位置信息;

对于一个样本视频,提取样本视频对应的视频特征,该视频特征中包括各视频片段对应的片段特征;

对于一个样本视频,将该样本视频的视频特征输入至初始神经网络模型中,得到该样本视频中每个视频片段对应的预测位置信息;

基于各样本视频对应的预测位置信息和各位置标签对应的位置信息,确定训练损失,对于一个样本视频,该训练损失的值表征了该样本视频对应的预测位置信息和该样本视频对应的位置标签对应的位置信息之间的差异;

若训练损失满足训练结束条件,则将结束时对应的模型作为视频片段确定网络,若不满足,则调整初始神经网络模型的模型参数,并基于训练数据对初始神经网络模型进行训练。

本申请的一个实施例中,提取待处理文本的全局文本特征,将全局文本特征融合到第一视频特征中,得到第二视频特征,以及根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段是基于神经网络模型得到的;

神经网络模型包括短语特征提取网络、多模态特征提取网络和视频片段确定网络,神经网络模型是通过以下方式训练得到的,具体可包括以下步骤:

步骤1,获取训练数据,训练数据包括多个样本,每个样本中包括样本视频和样本文本,每个样本携带有位置标签,对于一个样本,位置标签表征了样本视频中与样本文本的对应的目标视频片段的位置信息。

其中,位置标签可以为文字、字符等,本申请中不限定和位置标签的具体表现形式。

步骤2,对于训练数据中的每一样本,提取样本中的样本文本的全局文本特征和局部文本特征,以及样本视频的视频特征。

其中,如前文描述的方法,样本文本的全局文本特征和局部文本特征与待处理文本的全局文本特征和局部文本特征的提取方式一样,在此不再赘述。样本文本的局部文本特征包括样本文本包含的各单位文本的特征,样本文本的全局文本特征包括样本文本包含的各短语的短语特征;样本文本中包含的各单位文本的特征可以基于其他方式进行提取,比如,可基于预训练好的文本特征提取网络提取。样本视频的视频特征也可以基于训练好的网络提取,从而可加快模型训练速度。

步骤3,对于样本,将样本文本中的各单位文本的特征输入至短语特征提取网络,得到样本文本中各短语的预测短语特征。

步骤4,基于各样本对应的各短语的预测短语特征之间的匹配度,确定第一损失值,对于一个样本,第一损失值表征了样本中各短语之间的语义差异。

其中,各短语的预测短语特征之间的匹配度可基于特征相似度表征,两个短语之间越匹配,表示两个短语之间的语义越接近,语义差异越小。

步骤5,对于样本,将样本文本的全局文本特征和局部文本特征,以及样本视频的视频特征输入至所多模态特征提取网络,得到样本视频对应的多模态视频特征。

其中,基于样本文本的全局文本特征、局部文本特征、以及样本视频的视频特征确定多模态视频特征的过程与前文描述的基于待处理文本的全局文本特征、局部文本特征和待处理视频的第一视频特征,确定第三视频特征的过程一致,在此不再赘述。

具体的,在解码器端,可基于样本文本的局部文本特征和样本视频的视频特征之间的关联特征,调整样本视频的视频特征,同时基于该关联特征,调整样本文本的局部文本特征,以使得模型在训练时,考虑到文本特征和视频特征之间的相互影响,使得确定的多模态视频特征更加准确。

可选的,在解码器端,可基于协同自注意力机制确定样本文本的局部文本特征和样本视频的视频特征之间的关联特征,并基于该关联特征交替调节局部文本特征和视频特征。此部分将在下文具体描述,在此不再赘述。

步骤6,对于样本,将多模态视频特征输入至视频片段确定网络,得到多模态视频特征中各样本视频片段对应的权重,并基于多模态视频特征和各样本视频片段对应的权重,得到样本视频中与样本文本的对应的预测视频片段在样本视频中对应的预测位置信息。

其中,样本视频的视频特征中包括多个样本视频片段的特征。

步骤7,基于各样本对应的预测位置信息和各位置标签,确定第二损失值,第二损失值表征了各样本对应的预测位置信息和各样本的位置标签之间的差异。

其中,对于一个样本,该样本对应的第二损失值表征了该样本对应的预测位置信息和该样本对应的位置标签之间的差异,即预测位置信息与位置标签对应的位置信息之间的差异。

步骤8,基于各样本对应的多模态视频特征中各样本视频片段以及各样本对应的位置标签,确定第三损失值,对于一个样本,第三损失值表征了样本中各样本视频片段为目标视频片段的可能性。

其中,对于一个样本,权重越大,表明对应的样本视频片段为目标视频片段的可能性越大。

步骤9,基于第一损失值,第二损失值和第三损失值,确定神经网络模型对应的训练损失函数的值;若训练损失函数收敛,则将收敛时对应的模型作为最终的神经网络模型,若不收敛,则调整神经网络模型的模型参数,并基于训练数据对神经网络模型进行训练。

可选的,第二损失值可采用L1平均绝对误差损失函数表征,则第二损失值为位置标签对应的位置信息与预测位置信息的绝对差值的总和的平均值。

可选的,第二损失值还可采用L2最小平方误差损失函数表征,即通过最小平方误差来表征第二损失值,则第二损失值为位置标签对应的位置信息与预测位置信息的差值的平方和的平均值。

第二损失函数的输入均归一化在0~1区间内,在第二损失值接近0时,即该样本对应的预测位置信息和该样本对应的位置标签对应的位置信息之间的差异较小时,L2损失的梯度小于L1损失的梯度,因此,采用L2确定第二损失函数,训练稳定性更好。在第二损失值较大时,且考虑到输入值均小于1,因此,L1损失对偏差的惩罚效果优于L2损失,此时,采用L1确定第二损失值,准确性更高,为此,在本方案中,基于L1和L2来确定第二损失值,并在L1和L2中引入门限参数β,从而可更好的平衡模型的鲁棒性和准确性。

具体方案为:本申请的一个实施例中,对于一个样本,基于各样本对应的预测位置信息和各位置标签,确定第二损失值,包括:

基于样本对应的预测位置信息和位置标签,确定位置偏差值;

若位置偏差值的绝对值小于门限参数,基于位置偏差值对应的最小平方误差损失函数,确定第二损失值;

若位置偏置值的绝对值不小于门限参数,基于位置偏差值对应的损失函数,确定第二损失值,损失函数包括平均绝对误差损失函数和门限参数。

对于一个样本对应的第二损失值,具体参见以下公式:

其中,δi为训练数据中第i个样本对应的位置偏差值,即该样本对应的预测位置信息和位置标签对应的位置信息之间的差异,β为门限参数,|δ|表示位置偏差值的绝对值,freg(δ)=2β|δ|-β2为位置偏差值对应的损失函数,freg(δ)=δ2为位置偏差值对应的最小平方误差损失函数(L2),Lreg为训练数据中任一个样本对应的第二损失值,fregi)为第i个样本对应的第二损失值,N表示训练数据中样本的数量,其中,1≥δ≥0。

在|δ|<β时,即位置偏差值的绝对值小于门限参数时,第二损失值采用该位置偏差值对应的L2损失函数freg(δ)=δ2,确定第二损失值。

在|δ|>β时,即位置偏置值的绝对值不小于门限参数时,第二损失值采用该位置偏差值对应的损失函数freg(δ)=2β|δ|-β2,确定第二损失值。

可选的,预测位置信息包括预测起始位置和预测结束位置,位置标签对应的位置信息包括标注起始位置和标注结束位置。

则对于一个样本,该样本对应的第二损失值包括起始损失和结束损失,起始损失表征了起始位置和预测起始位置之间的差异,结束损失表征了起始位置和预测结束位置之间的差异。

则上述第二损失值对应的公式可以为:

其中,表示第i个样本对应的起始位置和预测起始位置之间的差异(位置偏差值),为第i个样本对应的起始损失,为第i个样本对应的结束损失,为第i个样本对应的第二损失值,Lreg为一个样本对应的第二损失值,N表示训练数据中样本的数量。

下面结合图3中所示的神经网络结构示意图,对本申请中的神经网络模型的训练进行详细的描述:

该神经网络模型中包括级联的输入编码模块,多模态融合模块(多模态特征提取网络)和时序定位模块。其中,输入编码模块包括短语特征提取网络(图中所示的SPE)。

获取训练数据,训练数据包括多个样本,每个样本中包括样本视频和样本文本,每个样本携带有和位置标签,对于一个样本,位置标签表征了样本视频中与样本文本的对应的目标视频片段的位置信息。

下面以一个样本为例,对本申请方案涉及的各模块的处理流程进行描述:

首先,将该样本输入至输入编码模块,输入编码模块包括预训练的文本特征提取网络,短语特征提取网络,以及视频特征提取网络,本示例中,可选的,文本特征提取网络可为双向LSTM(Long Short-Term Memory,长短期记忆网络)(图中所示的Bi-LSTM)组成。

对于样本文本,本示例中,以单位文本为字为例进行说明,可先通过GloVe提取样本文本中各字的特征(特征向量),具体可先通过GloVe得到样本文本中的各字的嵌入表达(初始特征),可选的,可提取300维的嵌入,然后基于各字的初始特征,基于双向LSTM得到包含上下文关系的各字的特征,具体可表示为:其中,L为样本文本中字的个数,表示每个字的特征。

其中,各字的特征(可称为字向量)可通过以下公式得到:

其中,L表示样本文本中字的个数,表示利用前向LSTM得到的包含历史信息(一个字之前的字)的特征,表示利用后向LSTM得到的包含未来信息(一个字之后的字)的特征,表示包含上下文信息的第i各字对应的特征,i大于等于1,小于等于L。

样本文本的局部文本特征包括各字对应的特征。

一个样本文本中可包括多个短语,一个短语可以是一个字,也可以由至少两个字组成。对于一个样本文本通过该样本文本对应的一个文本特征不能全面准确概括出该文本所表达的全部信息,由此,在该实施例中,可基于各字以及各字的位置关系,确定样本文本中的各短语,然后通短语特征提取网络提取各短语的短语特征,再融合各短语的短语特征,得到样本文本的全局文本特征。

其中,该全局文本特征可记为:G=[g(1),g(2),…,g(k)],其中,k为短语的数量,g(1)表示第一个短语的短语特征。

可选的,对于一个样本文本,样本文本中各短语的数量为3个,此时,模型的性能最好。

在本示例中,各短语的短语特征可基于短语特征提取网络提取,短语特征提取网络可基于以下训练方式训练得到:

对于训练数据中的每一样本文本,提取每个样本文本中各字的特征;

对于每个样本文本,将样本文本中各字的特征输入至短语特征提取网络,以使短语特征提取网络基于各字的特征,确定样本文本中各短语的预测短语特征;

基于各样本对应的各短语的预测短语特征之间的匹配度,确定第一损失值,对于一个样本文本,第一损失值表征了样本文本中各短语之间的语义差异。

可选的,对于一个样本文本,可基于该样本文本中的各字的特征,以及各字的权重,确定该样本文本中所包含的各短语的短语特征(各短语的预测短语特征)。

其中,各短语的权重可表示为:

Asps=softmax(Ws2(tanh(Ws1Qin)))

其中,softmax为损失函数,Ws2和Ws1为网络参数,Qin为各字的特征,Aspe为K*L的矩阵,L为样本文本中字的数量,K为样本文本中短语的数量,Aspe中的每行中的元素表征了样本文本中每个字在该短语(每个字在各自对应短语)中的权重,对于一个字的权重,通过该权重表征该样本文本中的字在当前短语(该字所在短语)中的重要程度,K小于等于L。

将Aspe与Qin相乘即可包含K个不同语义短语的全局文本特征G,即该样本文本对应的全局文本特征。

对于一个样本,该样本对应的第一损失值可表示为:

其中,Lsd为该样本对应的第一损失值,为Aspe的转置,中的每个元素可表征各短语中任两个短语之间的相似度,的对角线上的元素表征了各短语与其本身对应的相似度(为1),非对角线上的每个元素表征了一个短语与其他短语之间的相似度,||··||F为弗罗贝尼乌斯范数,I为单位矩阵,通过单位矩阵,使的对角线上的元素归0,非对角线上的元素的值越小,表明提取的短语之间差异性越好。

基于样本文本中各字的特征,通过训练好的短语特征提取网络,可得到样本文本的全局文本特征,具体可表示为:

其中,为Aspe的转置,Qin为各字的特征,G表示包含K个不同语义短语的全局文本特征。

对于样本视频,可基于视频特征提取网络,从样本视频中提取得到视频特征,该视频特征提取网络可包括3D卷积神经网络(记为fv(·))和至少一层全连接层,先通过3D卷积神经网络从样本视频中提取第一视频特征,该第一视频特征经过全连接层,可得到该样本视频的第一视频特征的嵌入表达:

其中,Vin为第一视频特征,第一视频特征包括样本视频中多个视频片段的特征,为第一个视频片段的特征。

其中,视频特征提取网络可记为:Vin=ReLU(Wvfv(X))

其中,X为样本视频,Wv为视频特征提取网络的参数,ReLU为视频特征提取网络的非线性激活函数。

对于一个样本,将该样本中的样本文本的局部文本特征和全局文本特征,以及样本视频的视频特征输入至多模态特征提取网络(图中所示的多模态融合模块),得到样本视频对应的多模态视频特征,其中,多模态视频特征中包括各样本视频片段对应的多模态视频特征。

在多模态特征提取网络内部,如图3所示,多模态融合模块包括编码器和解码器两个部分,在编码器端,考虑到注意力机制无法表达样本视频中各样本视频片段间的时序关系,因此,将全局文本特征(图4中所示的文本)和第一视频特征(样本视频的视频特征,图4中所示的视频)融合,得到融合视频特征,之后,获取多个样本视频片段在样本视频中的对应的位置信息特征(图4中所示的PE);在融合视频特征中加入对应的位置信息特征(记为fPE(·)),得到叠加后的视频特征,即将融合视频特征中每一视频片段的特征和每一视频片段各自对应的位置信息特征进行叠加,得到叠加后的视频特征,叠加后的视频特征为包含位置信息的视频特征。

编码器包括特征提取层(本实例中,特征提取层可以为多层感知机(Multi LayerPerceptron,MLP)及自注意力模块,本示例中,包括M层感知器(感知机),在得到叠加后的视频特征之后,可将叠加后的视频特征中各样本视频片段对应的特征输入至自注意力模块,以通过自注意力模块基于叠加后的视频特征中的各样本视频片段的关联关系,确定各样本视频片段对应的权重,对于每一样本视频片段,基于样本视频片段对应的权重和叠加后的视频特征中该视频片段对应的特征,得到视频片段对应的增强后的特征。

在本实例中,自注意力模块由多头自注意力及前向传播网络FFN构成,如图3所示的3个SelfAttn及FFN。对于一个样本视频片段,分别经过3个权值共享的自注意力模块,每次将该样本视频片段对应的叠加后的视频特征输入至多头自注意力模块中后,可得到该叠加后的视频特征。具体地,查询(Q)向量、键(K)向量、值向量(V)均为相同的输入特征,并通过标准的注意力计算公式对输入特征融合,随后经过相加与归一化操作来缓解深层网络在训练过程中容易出现的梯度消失问题,得到该输入特征(叠加后的视频特征)对应的增强后的特征。再将各样本视频片段对应的增强后的特征输入至前馈神经网络(前向传播网FFN)进一步提取每个增强后的特征的深层的融合特征,重复上述过程(一个SelfAttn及FFN对应的处理过程)M次,可以获得3个增强的视频特征。再将该3个增强的视频特征通过多层感知机MLP(Multi-Layer Perceptron)进行融合,得到第二视频特征。其中,使用多头自注意力的目的是为了降低特征维度,以及增加模型的非线性能力。

其中,由于该第二视频特征中是基于两个维度的特征确定的,因此,可将此第二视频特征称为第一多模态特征,该第一多模态特征可表征全局文本特征和第一视频特征之间的共有特征。

上述编码器的工作过程可参见以下公式:

其中,Vin表示第一视频特征,第一视频特征包括样本视频中多个样本视频片段的特征,G为全局文本特征,fu(Vin,G)为融合第一视频特征和全局文本特征的融合函数,N为样本视频片段的数量,在本示例中,N可以为128;fPE([1,2,…,N])为多个样本视频片段在样本视频中的位置信息特征,为第i个编码器支路对应的叠加后的视频特征,表示第i个编码器支路对应的叠加后的视频特征在经过多头自注意力模块进一步提取得到的深层的融合特征(增强后的特征),Fenc表示第二视频特征,本示例中,编码器有三个支路,即每个SelfAttn及FFN对应一个支路,因此,i=1,2,3。

在本示例中,编码器有三个支路,全局文本特征中包括3个短语的短语特征,则编码器中的每个支路可对全局文本特征中的一个短语特征和第一视频特征进行融合,得到各短语特征对应的初步融合特征,然后分别通过这三个支路对初步融合特征进行进一步的提取和融合处理,得到第二视频特征。

在本示例中,将全局文本特征融合到第一视频特征中,得到第二视频特征,具体可以包括:采用复制的方式将全局文本特征中的各短语特征与各视频片段的特征进行维度对齐,然后采用哈达玛积(Hadamard Product)算法(元素级相乘)将全局文本特征融合到第一视频特征中,得到第二视频特征。

具体还可参见图4中所示编码器中全局文本特征和第一视频特征的处理流程示意图,与图3中的处理过程一致,在此不再赘述。

在解码器端,在解码器端,可基于局部局文本特征(图4中解码器端对应的文本)和编码器端输出的第二视频特征,从样本视频中确定与样本文本匹配的目标视频片段。即基于局部文本特征进一步对第二视频特征进行处理,以可以得到准确表征样本视频中与样本文本对应的预测视频片段的视频特征。

具体的,解码器包括两个分支,一个是视频分支,一个文本分支,每个分支由一个自注意力模块(图中所示的SelfAttn)和一个协同注意力模块(图中所示的BiAttn)构成,自注意力模块可为多头自注意模块,协同注意力模块可以为多头协同注意力模块。

同样,考虑到注意力机制无法表征各字之间的时序关系,可在局部文本特征中加入各字对应的位置信息特征(即各字在样本文本中的位置信息对应的位置特征,位置特征即为图3中所示的PE位置编码,以及图4解码器对应的PE)。

先通过视频分支的自注意力模块对第二视频特征进行深度特征的提取,得到深度视频特征,通过文本分支的自注意力模块对局部文本特征分别进行深度特征的提取,得到深度文本特征。

在视频分支,该分支的输入为编码器输出的第二视频特征,以及样本文本的局部文本特征(各字的特征向量);该分支的作用是:通过第二视频特征指导局部文本特征注意局部文本特征中的重要信息。

具体的,将深度视频特征和深度文本特征输入至协同注意力模块,以通过该模块对深度文本特征进行调节,具体为:先确定深度视频特征和深度文本特征之间的关联特征,基于关联特征和深度视频特征,对深度文本特征进行调整,得到调整后的局部特征。

在文本分支,该分支的输入为编码器输出的第二视频特征以及样本文本的全局文本特征,该分支的作用是:通过局部文本特征指导第二视频特征关注第二视频特征中的重要信息。具体的,将深度文本特征和深度视频特征输入协同注意力模块,以通过该模块对深度视频特征进行调节,具体为:先确定深度视频特征和深度文本特征之间的关联特征,基于关联特征和深度文本特征,对深度视频特征进行调节,得到调整后的视频特征。

在本示例中,解码器中的自注意力模块可以是多头自注意力模块,比如,可通过多头自注意力模块对第二视频特征进行深度特征的提取,得到深度视频特征,其具体实现过程可参见图4中所示的解码器处理过程,详细过程与前文编码器中,通过多头自注意力模块对第一融合特征的处理过程一致,在此不再赘述。可以理解的是,通过自注意力模块对局部文本特征进行深度特征的提取,得到深度文本特征也可与前文中,通过多头自注意力模块对第一融合特征的处理过程一致,在此不再赘述。

解码器的具体实现过程可参见以下公式:

Qin=Qin+fPE([1,2,…,L])

FQ1=SelfAttn(Qin,Qin,Qin)

FV1=SelfAttn(Fenc,Fenc,Fenc)

FQ2=BiAttn(FQ1,FV1,FV1)

FV2=BiAttn(FV1,FQ1,FQ1)

其中,fPE([1,2,…,L]为样本文本中各字在样本文本中的应的位置信息编码,Qin为局部文本特征;SelfAttn为自注意力模块,FQ1为局部文本特征经过自注意力模块处理后的深度文本特征,Fenc为第二视频特征,FV1为第二视频特征经过自注意力模块处理后的深度视频特征,BiAttn为协同注意力模块,FQ2为调整后的局部特征,FV2为调整后的视频特征。

在得到两个分支的输出后,即在得到调整后的局部特征和调整后的视频特征后,可通过信息门(图3中所示的IG),基于调整后的局部特征确定的指导信息过滤掉调整后的视频特征中,与调整后的局部特征语义不相关的特征,进一步保证确定的样本视频中与样本文本对应的多模态视频特征的准确性。

具体的,可先对调整后的局部特征FQ2进行融合(信息聚合),得到指导信息sglobal。然后基于指导信息sglobal对调整后的视频特征中的各视频片段的特征进行调整,得到第三视频特征。

其中,对调整后的全局特征(FQ2)进行融合,得到指导信息sglobal可通过BiLSTM实现。

具体过程可参见以下公式:

sglobal=BiLSTM(FQ2)

其中,FQ2为调整后的全局特征,sglobal为指导信息,WIG和WIV为参数,FV2为调整后的视频特征,IV为第三视频特征(样本视频对应的多模态视频特征),σ为Sigmoid激活函数。

在得到多模态视频特征之后,对于样本,将多模态视频特征输入至视频片段确定网络(图3中所示的时序定位模块),得到多模态视频特征中各样本视频片段对应的权重,并基于多模态视频特征和各样本视频片段对应的权重,得到样本视频中与样本文本的对应的预测视频片段在样本视频中对应的预测位置信息,即预测视频片段在样本视频中对应的起始时间和结束时间。

具体的,根据第三视频特征中包含的各样本视频片段的特征之间的关联关系,确定各视频片段对应的权重a,基于各样本视频片段对应的权重,对各样本视频片段的第三视频特征进行加权,得到第四视频特征基于第四视频特征,确定预测视频片段在样本视频中的预测位置信息,预测位置信息包括预测起始时间和预测结束时间。

对于一个样本对应的预测位置信息,具体可通过以下公式确定:

其中,ai为每个样本中第i个视频片段对应的权重,N为样本视频片段的数量,i大于等于1,小于等于N,为每个样本中第i个视频片段对应的多模态视频特征(第三视频特征),为第四视频特征,MLP为预训练好的视频片段确定网络,(τse)为预测位置信息,τs为预测起始时间,τe为预测结束时间。

其中,对各样本视频片段的第三视频特征进行加权,得到第四视频特征具体包括:对各样本视频片段的第三视频特征在特征维度上进行加权求和,得到第四视频特征作为一个示例,比如,一个视频包括128个视频片段,每个视频片段的维度为512维,那么该视频的维度可以表示为:128*512;通过计算每个视频片段对应的权重(注意力值),可得到128个注意力值,把这128个注意力值沿着512个维度进行复制,就可以对这128*512维度的视频特征进行聚合,从而得到512维度的特征。

在得到该样本对应的预测视频片段对应的预测位置信息之后,可基于各样本对应的预测位置信息和各位置标签,确定第二损失值,对于一个样本,第二损失值表征了该样本对应的预测位置信息和该样本对应的位置标签对应的位置信息之间的差异。

对于一个样本对应的第二损失值,具体参见以下公式:

其中,δi为训练数据中第i个样本对应的位置偏差值,即该样本对应的预测位置信息和位置标签对应的位置信息之间的差异,β为门限参数,|δ|表示位置偏差值的绝对值,freg(δ)=2β|δ|-β2为位置偏差值对应的损失函数,freg(δ)=δ2为位置偏差值对应的最小平方误差损失函数(L2),Lreg为训练数据中任一个样本对应的第二损失值,为第i个样本对应的起始损失,为第i个样本对应的结束损失,为第i个样本对应的第二损失值,N表示训练数据中样本的数量。

在|δ|<β时,即位置偏差值的绝对值小于门限参数时,第二损失值采用该位置偏差值对应的L2损失函数freg(δ)=δ2,确定第二损失值。

在|δ|>β时,即位置偏置值的绝对值不小于门限参数时,第二损失值采用该位置偏差值对应的损失函数freg(δ)=2β|δ|-β2,确定第二损失值。

基于各样本对应的多模态视频特征中各样本视频片段对应的权重以及各样本对应的位置标签,确定第三损失值,对于一个样本,第三损失值表征了样本中各样本视频片段为目标视频片段的可能性。

可选的,可通过各样本视频片段对应的注意力掩膜表征各样本视频片段对应的权重。

其中,一个样本对应的第三损失值可表示为:

其中,Lta为第三损失值,ai表示每个样本中第i个视频片段对应的多模态视频特征对应的权重(注意力掩膜),可通过概率表征,概率越大,表明该权重对应的样本视频片段为目标视频片段的可能性越大,N表示样本视频片段的数量,为指示函数,如果ai在位置标签对应的区间内,那么为1,否则为0;为1时,表示ai对应的样本视频片段为目标视频片段的可能性越大,为0时,表示ai对应的样本视频片段为目标视频片段的可能性越小。则在位置标签对应的区间内,ai越大越好。

作为一个示例,比如,位置标签对应的目标视频片段为样本视频的第2秒至第4秒,则该位置标签对应的区间为第2秒至第4秒,基于各样本视频样本视频片段对应的权重(注意力掩膜),权重在位置标签对应的区间(第2秒至第4秒对应的区间)内时,为1,该权重对应的样本视频片段为目标视频片段的可能性越大,否则,权重不在位置标签对应的区间(第2秒至第4秒对应的区间)内时,为0,该权重对应的样本视频片段为目标视频片段的可能性越小。

基于第一损失值,第二损失值和第三损失值,确定神经网络模型对应的训练损失函数的值,若训练损失函数收敛,则将收敛时对应的模型作为最终的神经网络模型,若不收敛,则调整神经网络模型的模型参数,并基于训练数据对神经网络模型进行训练。

在本示例中,在得到神经网络模型之后,可在Charades-STA、ActivityNetCaptions以及TACoS三个数据集上进行测试。对应于上述三个数据集,可选的,Charades-STA数据集对应的样本视频的视频片段的数量为128,ActivityNet Captions数据集对应的样本视频的视频片段的数量为128,TACoS数据集对应的样本视频的视频片段的数量为200。

可选的,Charades-STA数据集对应的神经网络模型一次可以处理的样本文本的最大长度为10,ActivityNet Captions数据集对应的神经网络模型一次可以处理的样本文本的最大长度为25,TACoS数据集对应的神经网络模型一次可以处理的样本文本的最大长度为25。

可选的,Charades-STA数据集对应的门限参数β为0.1,ActivityNet Captions数据集对应的门限参数β为0.4,TACoS数据集对应的门限参数β为0.2。

本示例中,神经网络模型一次可以处理的样本的数量为100。

可选的,神经网络模型可选择Adam优化器,以提高模型的训练速度。

可选的,神经网络模型的初始化学习率为1e-3。。

本发明在Charades-STA、ActivityNet Captions以及TACoS三个数据集均达到了最好的性能,这里采用[email protected]和mIoU作为评价指标,其中[email protected]代表召回的Top1中IoU超过m的准确率,该值越高性能越好;mIoU表示召回的Top1平均IoU值,该值越高性能越好。具体实验结果如下表所示:

表1 Charades-STA数据集性能比较

其中,Ours表示本申请的方法,由表1可知,通过本申请的方法,所得到的评价指标[email protected]为72.53,[email protected]为59.84,[email protected]为37.74,mIoU为51.45,基于LGI[5]方法,所得到的评价指标[email protected]为72.96,[email protected]为59.46,[email protected]为35.48,mIoU为51.38,比较可知,相较于其他方法对应的评价指标,本申请的方法性能高于其他方法。

表2 ActivityNet Captions数据集性能比较

其中,Ours表示本申请的方法,由表2可知,通过本申请的方法,所得到的评价指标[email protected]为60.26,[email protected]为42.46,[email protected]为24.09,mIoU为42.51,基于LGI[5]方法,所得到的评价指标[email protected]为58.52,[email protected]为41.51,[email protected]为23.07,mIoU为41.13,比较可知,相较于其他方法对应的评价指标,本申请的方法性能高于其他方法。

表3 TACoS数据集性能比较

其中,Ours表示本申请的方法,由表3可知,通过本申请的方法,所得到的评价指标[email protected]为60.08,[email protected]为45.81,[email protected]为31.12,mIoU为13.87,基于2D-TAN[1]方法,所得到的评价指标[email protected]为47.59,[email protected]为37.29,[email protected]为25.32,比较可知,相较于其他方法对应的评价指标,本申请的方法性能高于其他方法。

本申请的一个实施例中,获取待处理文本和待处理视频,包括:

获取用户的视频搜索请求,视频搜索请求中包括搜索文本;

获取视频搜索请求对应的视频数据库,搜索文本为待处理文本,视频数据库中的任一视频为待处理视频;

该方法还包括:

若待处理视频中存在目标片段,将视频片段发送给用户。

其中,确定待处理视频中与待处理文本匹配的目标片段的方案可适用于任何需要确定上述目标片段的场景,比如,基于文本搜索视频片段的场景。

其中,搜索文本中表明了用户想搜索的视频片段的相关信息,比如,搜索文本为:灌篮,则表示用户想搜索有关灌篮的视频片段。将搜索文本作为待处理文本,视频数据库中的任一视频作为待处理视频,基于前文描述的方式可从视频数据库中确定出与搜索文本对应的目标片段。

其中,视频搜索请求可以是用户基于用户的终端设备发起的,终端设备可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。

视频片段可以通过搜索者的终端设备进行展示,其中,终端设备可供提供视频展示功能的客户端运行,客户端提供视频展示功能,客户端的具体形式不进行限定,例如:媒体播放器、浏览器等,客户端可以是应用程序形式,也可以是网页形式,在此不做限制。

本申请的一个实施例中,获取待处理文本和待处理视频,包括:

获取待处理视频和待处理视频的标题信息,待处理文本为待处理视频的标题信息;

该方法还包括:

若待处理视频中存在目标片段,确定标题信息与待处理视频是匹配的;

若待处理视频中不存在目标片段,确定标题信息与待处理视频是不匹配的。

在另外一个应用场景中,比如,待处理文本为第一视频的标题信息,待处理视频为第一视频,为了确定标题信息与第一视频的视频内容是否相符,也可基于本申请的方案,确定第一视频中是否存在与标题信息对应的目标片段,如果存在,则表明标题信息与第一视频的视频内容相符(匹配),如果不存在,则表明标题信息与第一视频的视频内容不相符(不匹配)。

图5为本申请一个实施例提供的媒体数据处理方法的实施环境的示意图,该示例中的实施环境可以包括但不限于搜索服务器101、网络102、终端设备103。搜索服务器101可以通过网络102与终端设备103通信,将接收到的视频搜索请求发送给搜索服务器101,搜索服务器101可以通过网络向终端设备103发送检索得到的目标图像。

上述终端设备103中包括人机交互屏幕1031,处理器1032及存储器1033。人机交互屏幕1031用于显示目标图像。存储器1033用于存储检索图像和目标图像等相关数据。搜索服务器101包括数据库1011和处理引擎1012,处理引擎1012可用于训练得到神经网络模型。数据库1011用于存储训练好的神经网络模型和视频数据库。终端设备103可以将视频搜索请求通过网络上传至搜索服务器101中,搜索服务器101中的处理引擎1012可获取视频搜索请求对应的视频数据库,根据搜索文本的全局文本特征和搜索文本包含的各单位文本对应的局部文本特征,以及待处理视频的视频特征,从视频数据库中确定出与搜索文本对应的视频片段,并将该视频片段提供给搜索者的终端设备103进行展示。

上述搜索服务器101中处理引擎主要两个功能,第一个功能是用于训练得到神经网络模型,第二个功能是用于基于神经网络模型和视频数据库对视频搜索请求进行处理,得到视频数据库中视频搜索请求与搜索文本对应的视频片段(搜索功能)。可以理解的是,可将上述两个功能分别由两个服务器实现,参见图6,两个服务器分别为训练服务器201和搜索服务器202,训练服务器201用于训练得到神经网络模型,搜索服务器202用于实现搜索功能。视频数据库存储在搜索服务器202中。

在实际应用中,两个服务器之间可以互相通信,训练服务器201训练好神经网络模型后,可将该神经网络模型存储在训练服务器201中,或将神经网络模型发送给搜索服务器202。或者,在搜索服务器202需要调用神经网络模型时,向训练服务器201发送模型调用请求,训练服务器201基于该请求将神经网络模型发送给搜索服务器202。

作为一个示例,终端设备204通过网络203将视频搜索请求发送给搜索服务器202,搜索服务器202调用训练服务器201中的神经网络模型,基于神经网络模型,搜索服务器202在完成搜索功能后,将搜索得到的视频片段通过网络203发送给终端设备204,以使终端设备204显示该视频片段。

本申请的一可选方案,根据视频中确定出的与文本匹配的视频片段,还可以进行视频片段的推荐。比如,基于用户的搜索关键词(文本),从数据库中搜索得到至少一个与搜索关键词匹配的视频,将该至少一个视频推荐给用户。从视频中确定出的与文本匹配的视频片段的应用很广泛,在此不一一赘述。

基于与图1中所示的方法相同的原理,本申请实施例还提供了一种媒体数据处理装置20,如图7中所示,该媒体数据处理装置20可以包括数据获取模块210,特征提取模块220,特征融合模块230和目标片段确定模块240,其中:

数据获取模块210,用于获取待处理文本和待处理视频;

特征提取模块220,用于提取待处理文本对应的全局文本特征和局部文本特征,以及待处理视频的第一视频特征,全局文本特征包括待处理文本包含的各短语对应的短语特征,局部文本特征包括待处理文本包含的各单位文本对应的特征;

特征融合模块230,用于将全局文本特征融合到第一视频特征中,得到第二视频特征;

目标片段确定模块240,用于根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

可选的,第一视频特征包括待处理视频中多个视频片段的特征;特征融合模块230在将全局文本特征融合到第一视频特征中,得到第二视频特征时,具体用于:

将全局文本特征和第一视频特征融合,得到融合视频特征;

获取各视频片段在待处理视频中对应的位置信息特征;

将融合视频特征中每一视频片段的特征和每一视频片段各自对应的位置信息特征进行叠加,得到叠加后的视频特征;

基于叠加后的视频特征,得到第二视频特征。

可选的,目标片段确定模块在根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段时,具体用于:

确定局部文本特征和第二视频特征的关联特征;

根据关联特征和第二视频特征,对局部文本特征进行调整,得到调整后的局部特征;

根据关联特征和局部文本特征,对第二视频特征进行调整,得到调整后的视频特征;

基于调整后的局部特征和调整后的视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

可选的,目标片段确定模块在第一视频特征包括待处理视频中多个视频片段的特征;基于调整后的局部特征和调整后的视频特征,从待处理视频中确定与待处理文本匹配的目标片段时,具体用于:

根据调整后的局部特征,确定待处理文本对待处理视频的指导信息;

根据指导信息对调整后的视频特征中的各视频片段的特征进行调整,得到第三视频特征;

根据第三视频特征,从待处理视频中确定与待处理文本匹配的目标片段。

可选的,目标片段确定模块在根据第三视频特征,从待处理视频中确定与待处理文本匹配的目标片段时,具体用于:

根据第三视频特征中包含的各视频片段的特征之间的关联关系,确定各视频片段对应的权重;

基于各视频片段对应的权重,对各视频片段的第三视频特征进行加权,得到第四视频特征;

基于第四视频特征,确定待处理视频中与待处理文本匹配的目标片段的位置信息;

基于位置信息,确定待处理视频中确定与待处理文本匹配的目标片段。

可选的,特征提取模块在提取待处理文本的全局文本特征和局部文本特征时,具体用于:

获取待处理文本中的各单位文本、以及各单位文本之间的位置关系;

基于各单位文本和各单位文本之间的位置关系,确定各单位文本的特征,局部文本特征包括各单位文本的特征;

基于各单位文本对应的特征,确定待处理文本中所包含的各短语的短语特征;

融合各短语的短语特征,得到全局文本特征。

可选的,第一视频特征包括待处理视频中多个视频片段的特征;特征融合模块在基于叠加后的视频特征,得到第二视频特征时,具体用于:

基于叠加后的视频特征中的各视频片段的关联关系,确定各视频片段对应的权重;

对于每一视频片段,基于视频片段对应的权重和叠加后的视频特征中该视频片段对应的特征,得到视频片段对应的增强后的特征;

基于各视频片段对应的增强后的特征,提取得到第二视频特征。

可选的,提取待处理文本的全局文本特征,将全局文本特征融合到第一视频特征中,得到第二视频特征,以及根据局部文本特征和第二视频特征,从待处理视频中确定与待处理文本匹配的目标片段是基于神经网络模型得到的;

神经网络模型包括短语特征提取网络、多模态特征提取网络和视频片段确定网络,神经网络模型是通过以下模型训练模块得到的:

模型训练模块用于:

获取训练数据,训练数据包括多个样本,每个样本中包括样本视频和样本文本,每个样本携带有位置标签,位置标签表征了样本视频中与样本文本的对应的目标视频片段的位置信息;

对于训练数据中的每一样本,提取样本中的样本文本的全局文本特征和局部文本特征,以及样本视频的视频特征;

对于样本,将样本文本中的各单位文本的特征输入至短语特征提取网络,得到样本文本中各短语的预测短语特征;

基于各样本对应的各短语的预测短语特征之间的匹配度,确定第一损失值,对于一个样本,第一损失值表征了样本中各短语之间的语义差异;

对于样本,将样本文本的全局文本特征和局部文本特征,以及样本视频的视频特征输入至所多模态特征提取网络,得到样本视频对应的多模态视频特征;

对于样本,将多模态视频特征输入至视频片段确定网络,得到多模态视频特征中各样本视频片段对应的权重,并基于多模态视频特征和各样本视频片段对应的权重,得到样本视频中与样本文本的对应的预测视频片段在样本视频中对应的预测位置信息;

基于各样本对应的预测位置信息和各位置标签,确定第二损失值,第二损失值表征了各样本对应的预测位置信息和各样本的位置标签之间的差异;

基于各样本对应的多模态视频特征中各样本视频片段对应的权重以及各样本对应的位置标签,确定第三损失值,对于一个样本,第三损失值表征了样本中各样本视频片段为目标视频片段的可能性;

基于第一损失值,第二损失值和第三损失值,确定神经网络模型对应的训练损失函数的值;

若训练损失函数收敛,则将收敛时对应的模型作为最终的神经网络模型,若不收敛,则调整神经网络模型的模型参数,并基于训练数据对神经网络模型进行训练。

可选的,对于一个样本,模型训练模块在基于各样本对应的预测位置信息和各位置标签,确定第二损失值时,具体用于:

基于样本对应的预测位置信息和位置标签,确定位置偏差值;

若位置偏差值的绝对值小于门限参数,基于位置偏差值对应的最小平方误差损失函数,确定第二损失值;

若位置偏置值的绝对值不小于门限参数,基于位置偏差值对应的损失函数,确定第二损失值,损失函数包括平均绝对误差损失函数和门限参数。

可选的,数据获取模块在获取待处理文本和待处理视频时,具体用于:

获取用户的视频搜索请求,视频搜索请求中包括搜索文本;

获取视频搜索请求对应的视频数据库,搜索文本为待处理文本,视频数据库中的任一视频为待处理视频;

该装置还包括:

第一视频处理模块,用于在待处理视频中存在目标片段时,将视频片段发送给用户。

可选的,数据获取模块在获取待处理文本和待处理视频时,具体用于:

获取待处理视频和待处理视频的标题信息,待处理文本为待处理视频的标题信息;

该装置还包括:

第二视频处理模块,用于在待处理视频中存在目标片段时,确定标题信息与待处理视频是匹配的;在待处理视频中不存在目标片段时,确定标题信息与待处理视频是不匹配的。

本申请实施例的媒体数据处理装置可执行本申请实施例所提供的媒体数据处理方法,其实现原理相类似,本申请各实施例中的媒体数据处理装置中的各模块、单元所执行的动作是与本申请各实施例中的媒体数据处理方法中的步骤相对应的,对于媒体数据处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的媒体数据处理方法中的描述,此处不再赘述。

其中,媒体数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该媒体数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。

在一些实施例中,本发明实施例提供的媒体数据处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的媒体数据处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的媒体数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中,本发明实施例提供的媒体数据处理装置可以采用软件方式实现,图7示出了存储在存储器中的媒体数据处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括数据获取模块210,特征提取模块220,特征融合模块230和目标片段确定模块240,用于实现本发明实施例提供的媒体数据处理方法。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。

基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本申请任一实施例所示的媒体数据处理方法。

本申请提供的媒体数据处理方法,在需要从待处理视频中确定与待处理文本匹配的目标片段时,可先基于待处理文本的全局文本特征和待处理视频的第一视频特征,对第一视频特征进行初步处理,得到第二视频特征,然后基于待处理文本的局部文本特征和第二视频特征,从待处理视频中的各视频片段中确定与待处理文本匹配的目标片段,由于全局文本特征和局部文本特征可以从不同粒度,更全面的描述待处理文本的全部信息,由此,本申请方案中,通过不同粒度的文本特征(全局文本特征和局部文本特征)确定的目标片段与待处理文本更加匹配,语义更加接近。

在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random AccessMemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read OnlyMemory,电可擦可编程只读存储器)、CD-ROM(Compact Disc ReadOnlyMemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。

其中,电子设备也可以是终端设备,图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。

根据本申请的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的媒体数据处理方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解的是,附图中的流程图和框图,图示了按照本申请各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本申请实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

38页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:虚拟资源处理方法、装置、介质及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!