多媒体信息的标题修正方法、装置、电子设备及存储介质

文档序号：1215829 发布日期：2020-09-04 浏览：7次 >En<

阅读说明：本技术 多媒体信息的标题修正方法、装置、电子设备及存储介质 (Title correction method and device for multimedia information, electronic equipment and storage medium ) 是由陈小帅于 2020-05-27 设计创作，主要内容包括：本发明提供了一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质；方法包括：对多媒体信息进行类型识别处理,得到多媒体信息的类型；对多媒体信息的标题进行错误识别处理,得到标题中的错误位置；根据错误位置的文本搜索与类型对应的候选修正数据库,得到用于修正错误位置的文本的多个候选修正文本；对多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并将标题的错误位置的文本替换为修正文本,以形成多媒体信息的正确标题。通过本发明,能够自动并准确地修正多媒体信息的标题,提高标题修正的效率。(The invention provides a title correction method, a title correction device, electronic equipment and a computer-readable storage medium for multimedia information based on artificial intelligence; the method comprises the following steps: performing type identification processing on the multimedia information to obtain the type of the multimedia information; carrying out error identification processing on the title of the multimedia information to obtain an error position in the title; searching a candidate correction database corresponding to the type according to the text of the error position to obtain a plurality of candidate correction texts for correcting the text of the error position; and screening a plurality of candidate corrected texts, taking the candidate corrected texts obtained after screening as corrected texts, and replacing the texts at the wrong positions of the titles with the corrected texts to form the correct titles of the multimedia information. The invention can automatically and accurately correct the title of the multimedia information and improve the efficiency of title correction.)

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

目前，标题在各种多媒体应用中越来越广泛。但是，相关技术中缺乏基于人工智能来修正多媒体信息的标题的有效方案，主要依赖于人工对多媒体信息进行审核，以纠正多媒体信息的错误标题，实现了多媒体信息的标题修正。由于需要通过人工对海量的多媒体信息进行审核，即相关技术的标题修正的效率很低。

发明内容

本发明实施例提供一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质，能够自动并准确地修正多媒体信息的标题，提高标题修正的效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的多媒体信息的标题修正方法，包括：

对多媒体信息进行类型识别处理，得到所述多媒体信息的类型；

对所述多媒体信息的标题进行错误识别处理，得到所述标题中的错误位置；

根据所述错误位置的文本搜索与所述类型对应的候选修正数据库，得到用于修正所述错误位置的文本的多个候选修正文本；

对所述多个候选修正文本进行筛选，将筛选后得到的候选修正文本作为修正文本，并

将所述标题的错误位置的文本替换为所述修正文本，以形成所述多媒体信息的正确标题。

本发明实施例提供一种多媒体信息的标题修正装置，包括：

识别模块，用于对多媒体信息进行类型识别处理，得到所述多媒体信息的类型；对所述多媒体信息的标题进行错误识别处理，得到所述标题中的错误位置；

搜索模块，用于根据所述错误位置的文本搜索与所述类型对应的候选修正数据库，得到用于修正所述错误位置的文本的多个候选修正文本；

筛选模块，用于对所述多个候选修正文本进行筛选，将筛选后得到的候选修正文本作为修正文本，并

替换模块，用于将所述标题的错误位置的文本替换为所述修正文本，以形成所述多媒体信息的正确标题。

上述技术方案中，所述装置还包括：

提取模块，用于提取所述多媒体信息的多个模态的特征；

其中，当所述多媒体信息为视频时，所述多个模态的特征包括：视频融合特征、音频融合特征和所述多媒体信息的标题的文本特征。

上述技术方案中，所述提取模块还用于对所述多媒体信息中每个视频帧进行编码处理，得到所述每个视频帧的向量表示，并对所述每个视频帧的向量表示进行融合处理，得到所述视频融合特征；

对所述多媒体信息中每个音频帧进行编码处理，得到所述每个音频帧的向量表示，并对所述每个音频帧的向量表示进行融合处理，得到所述音频融合特征；

对所述多媒体信息的标题中每个位置的文本进行编码处理，得到对应的向量，并将所述每个位置的向量组合为向量序列，以作为所述标题的文本特征。

上述技术方案中，所述识别模块还用于将所述视频融合特征、所述音频融合特征和所述文本特征进行融合处理，得到所述多媒体信息的多模态融合特征；

将所述多模态融合特征映射为对应多个候选多媒体信息类型的概率，并

将最大概率的候选多媒体信息类型确定为所述多媒体信息的类型。

上述技术方案中，所述识别模块还用于将所述标题的文本特征映射为对应所述标题中每个位置的错误概率，并将错误概率大于错误阈值的位置确定为所述错误位置。

上述技术方案中，所述识别模块还用于通过调用多任务识别模型中的视频类型分类子模型来进行所述类型识别处理；

通过调用所述多任务识别模型中的错误分类子模型来进行所述错误识别处理。

上述技术方案中，所述装置还包括：

训练模块，用于通过所述多任务识别模型对多媒体信息样本进行类型识别处理，得到所述多媒体信息样本的预测类型，并

对所述多媒体信息样本的标题进行错误识别处理，得到所述标题中的预测错误位置；

根据所述多媒体信息样本的预测类型、所述多媒体信息样本的多媒体信息类型标注、所述多媒体信息样本中的预测错误位置以及所述多媒体信息样本中错误位置标注，构建所述多任务识别模型的损失函数；

更新所述多任务识别模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述多任务识别模型的更新的参数，作为训练后的所述多任务识别模型的参数。

上述技术方案中，所述装置还包括：

生成模块，用于从所述多媒体信息的正样本集合中抽取多媒体信息正样本的标题中的部分文本；

从文本库中查询与所述部分文本对应的错误文本；

将所述标题中的部分文本替换为所述错误文本，以生成包含错误文本的多媒体信息负样本，并

将所述错误文本的位置确定为所述多媒体信息负样本的错误位置标注。

上述技术方案中，所述搜索模块还用于针对与所述多媒体信息的类型对应的候选修正数据库，执行以下处理至少之一：

查询与所述错误位置的文本的拼音对应的所述候选修正文本；

查询与所述错误位置的文本的字形对应的所述候选修正文本；

查询与所述错误位置的文本中的部分文本对应的所述候选修正文本。

上述技术方案中，所述筛选模块还用于针对所述多个候选修正文本中的任一所述候选修正文本，执行以下处理：

将所述标题的错误位置的文本替换为所述候选修正文本，以生成修正后的标题；

通过语言模型对修正前的所述标题进行通顺程度预测处理，得到所述修正前的所述标题的通顺程度；

通过所述语言模型对所述修正后的标题进行通顺程度预测处理，得到所述修正后的标题的通顺程度；

将所述标题修正前后的通顺程度的差值，作为所述候选修正文本的语言通顺程度；

当所述候选修正文本的语言通顺程度大于与所述多媒体信息的类型对应的语言通顺程度阈值时，将所述候选修正文本作为所述标题的修正文本。

上述技术方案中，所述语言模型包括类型个性化语言模型以及通用语言模型；所述筛选模块还用于通过所述类型个性化语言模型对所述修正后的标题进行通顺程度预测处理，得到所述修正后的标题的第一通顺程度；

通过所述通用语言模型对所述修正后的标题进行通顺度预测处理，得到所述修正后的标题的第二通顺程度；

对所述第一通顺程度以及所述第二通顺程度进行加权求和，以得到所述修正后的标题的最终通顺程度；

其中，所述类型个性化语言模型为根据与所述多媒体信息的类型对应的多媒体信息样本训练得到的，所述通用语言模型为根据包括所有多媒体信息的类型的多媒体信息样本训练得到的。

上述技术方案中，所述装置还包括：

处理模块，用于对所述修正前的所述标题进行分词处理，以得到所述修正前的所述标题包括的文本的数量；

对所述修正后的标题进行分词处理，以得到所述修正后的标题包括的文本的数量；

将所述标题的修正前后包括的文本的数量的差值，作为所述标题的参考阈值；

将所述多媒体信息的类型对应的语言类型阈值与所述标题的参考阈值的差值，确定为与所述多媒体信息的类型对应的语言通顺程度阈值。

本发明实施例提供一种用于多媒体信息的标题修正的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的多媒体信息的标题修正方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的多媒体信息的标题修正方法。

本发明实施例具有以下有益效果：

通过对多媒体信息的标题进行错误识别处理，得到标题中的错误位置，并将标题的错误位置的文本替换为用于修正错误位置的文本的修正文本，从而能够自动地修正多媒体信息的标题，提高标题修正的效率；进而，根据错误位置的文本搜索与多媒体信息的类型对应的候选修正数据库，得到用于修正错误位置的文本的多个候选修正文本，并从多个候选修正文本中筛选出修正文本，即能够充分利用具体的多媒体信息的类型的知识，在候选修正数据库中准确地搜索到修正文本，从而能够根据修正文本，准确地修正多媒体信息的标题，提高标题修正的准确率。

附图说明

图1是本发明实施例提供的多媒体信息的标题修正系统的应用场景示意图；

图2是本发明实施例提供的用于多媒体信息的标题修正的电子设备的结构示意图；

图3-6是本发明实施例提供的基于人工智能的多媒体信息的标题修正方法的流程示意图；

图7是本发明实施例提供的视频的标题修正方法的流程示意图；

图8是本发明实施例提供的多任务识别模型的处理流程示意图；

图9是本发明实施例提供的识别错误位置的示意图；

图10是本发明实施例提供的多媒体信息的标题修正装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)多媒体信息(Multimedia)：媒体就是指承载和传输某种信息或物质的载体。媒体可分为五大类：感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。在计算机领域里，媒体主要是传输和存储信息的载体，传输的信息包括语言文字、数据、视频、音频等；存储的载体包括硬盘、软盘、磁带、磁盘、光盘等等。多媒体是把各种媒体的功能进行科学地整合，为用户提供多种形式的信息展现，得到的信息更加直观生动。多媒体信息可以是多种媒体的综合，一般包括文本、声音和图像等多种媒体形式。即本发明实施例中的多媒体信息可以是文本、音频、视频等媒体形式。

2)多媒体信息的标题修正：又称多媒体信息的标题纠错，发现多媒体信息的标题的错误，并及时纠正该错误，以降低人工审核阶段的标题错误的识别难度，提高标题表述的准确性。例如，发现视频的标题有错误，则纠正该标题中的错误，避免依赖于人工审核，提高标题纠错的效率。

本发明实施例提供了一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质，能够自动并准确地修正多媒体信息的标题，提高标题修正的效率。

下面说明本发明实施例提供的用于多媒体信息的标题修正的电子设备的示例性应用。

本发明实施例提供的用于多媒体信息的标题修正的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。以服务器为例，例如可以是部署在云端的服务器集群，向运维人员开放人工智能云服务(AI asa Ser vice，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的运维人员都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。例如，其中的一个服务为标题修正服务，即云端的服务器封装有多媒体信息的标题修正的程序。运维人员通过终端调用云服务中的标题修正服务，以使部署在云端的服务器调用多媒体数据库中的海量多媒体信息(视频、音频等媒体形式)以及对应的标题，服务器调用封装的多媒体信息的标题修正的程序，将识别出的标题的错误位置的文本替换为修正文本，从而实现自动修正多媒体信息的标题，并将修正后的多媒体信息存入多媒体数据库，即修正后的多媒体信息可以直接投入应用，后续可直接从多媒体数据库中调用准确的多媒体信息(修正后的多媒体信息)，进行相应的多媒体信息的应用，例如在视频应用中，从多媒体数据库中调用修正后的视频信息，并显示视频标题，以便用户根据准确的视频标题，选择需要播放的视频。

参见图1，图1是本发明实施例提供的多媒体信息的标题修正系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取多媒体信息以及对应的标题，例如，运维人员通过终端输入多媒体信息以及对应的标题的地址，输入完成后，终端从该地址中获取多媒体信息以及对应的标题。

在一些实施例中，终端200可以执行本发明实施例提供的基于人工智能的多媒体信息的标题修正方法，来完成自动修正多媒体信息的标题，例如，在终端200上安装有客户端，例如可以是专用于修正标题的标题修正客户端，也可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等其他客户端，运维人员在标题修正客户端输入多媒体信息以及对应的标题后，终端200根据识别出的多媒体信息的类型，在候选修正数据库中搜索出用于修正错误位置的文本的修正文本，并根据修正文本修正多媒体信息的标题，以实现自动修正多媒体信息的标题，并将修正后的多媒体信息的标题显示在终端200的显示界面210上，以便运维人员核查修正的多媒体信息，并将修正的多媒体信息存入多媒体数据库，后续可直接从多媒体数据库中调用准确的多媒体信息，进行相应的多媒体信息的应用，例如播放视频、音频等。

在一些实施例中，终端200也可以通过网络300向服务器100发送运维人员在终端200上输入的多媒体信息以及对应的标题，并调用服务器100提供的多媒体信息的标题修正功能(封装的多媒体信息的标题修正的程序)，服务器100通过本发明实施例提供的基于人工智能的多媒体信息的标题修正方法，修正多媒体信息的标题，例如，在终端200上安装标题修正客户端，运维人员在标题修正客户端中，输入某多媒体信息以及对应的标题，终端200通过网络300向服务器100发送该多媒体信息以及对应的标题，服务器100接收到该多媒体信息以及对应的标题后，调用封装的多媒体信息的标题修正的程序，根据识别出的多媒体信息的类型，在候选修正数据库中搜索出用于修正错误位置的文本的修正文本，根据修正文本修正多媒体信息的标题，并将修正后的多媒体信息的标题返回至标题修正客户端，将修正后的标题显示在终端200的显示界面210上，以便运维人员核查修正的多媒体信息，或者，服务器100将修正的多媒体信息存入多媒体数据库，后续可直接从多媒体数据库中调用准确的多媒体信息，进行相应的多媒体信息的应用，例如播放视频、音频等。

下面说明本发明实施例提供的用于多媒体信息的标题修正的电子设备的结构，用于多媒体信息的标题修正的电子设备可以是各种终端，例如手机、电脑、电视、智能音箱、智能手表等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的用于多媒体信息的标题修正的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于多媒体信息的标题修正的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

根据上文可以理解，本发明实施例提供的基于人工智能的多媒体信息的标题修正方法可以由各种类型的用于多媒体信息的标题修正的电子设备实施，例如终端或服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的多媒体信息的标题修正方法。参见图3，图3是本发明实施例提供的基于人工智能的多媒体信息的标题修正方法的流程示意图，结合图3示出的步骤进行说明。

在步骤101中，对多媒体信息进行类型识别处理，得到多媒体信息的类型。

作为获取多媒体信息的示例，运维人员可以在终端的输入界面上输入多媒体信息以及对应的标题，例如某综艺视频信息以及该视频信息的标题，当输入完成后，终端可以将多媒体信息以及对应的标题转发至服务器，以使服务器根据多媒体信息进行类型识别处理，以及根据该多媒体信息的标题进行错误识别处理。

其中，该多媒体信息可以是视频，也可以是音频等媒体。例如，当该多媒体信息是视频时，该视频的类型可以是电视剧、电影、综艺、音乐、游戏、动漫等类型。

作为类型识别处理和错误识别处理的前序处理环节，可以提取多媒体信息的多个模态的特征，以便后续根据多模态的特征，对多媒体信息进行多任务联合识别，即类型识别处理和错误识别处理。从而，通过多媒体信息的多个模态的特征，能够快速进行类型识别处理和错误识别处理，从而快速地识别出多媒体信息的类型以及对应标题的错误位置，避免需要分别依赖于多媒体信息的其他特征进行类型识别处理和错误识别处理，能够节约服务器的计算资源，从而，快速修正多媒体信息的标题。

参见图4，图4是本发明实施例提供的基于人工智能的多媒体信息的标题修正方法的一个可选的流程示意图，图4示出在步骤101和步骤102之前，还包括步骤106。在步骤106中，提取多媒体信息的多个模态的特征；其中，当多媒体信息的种类为视频时，多个模态的特征包括：视频融合特征、音频融合特征和多媒体信息的标题的文本特征。

例如，当多媒体信息的种类为视频时，在进行类型识别处理和错误识别处理之前，可以提取视频的多个模态的特征，该多个模态的特征包括视频融合特征、音频融合特征和视频的标题的文本特征；当多媒体信息的种类为音频时，在进行类型识别处理和错误识别处理之前，可以提取音频的多个模态的特征，该多个模态的特征包括音频融合特征和音频的标题的文本特征。

参见图4，图4示出步骤106可以通过步骤1061-1063实现。在步骤1061中，对多媒体信息中每个视频帧进行编码处理，得到每个视频帧的向量表示，并对每个视频帧的向量表示进行融合处理，得到视频融合特征；在步骤1062中，对多媒体信息中每个音频帧进行编码处理，得到每个音频帧的向量表示，并对每个音频帧的向量表示进行融合处理，得到音频融合特征；在步骤1063中，对多媒体信息的标题中每个位置的文本进行编码处理，得到对应的向量，并将每个位置的向量组合为向量序列，以作为标题的文本特征。

其中，标题中每个位置的文本可以为单个字或者单个词语。当多媒体信息的种类为视频时，可以抽取视频的视频帧序列，并对视频帧序列中的每个视频帧进行编码处理，以得到视频帧的向量表示，例如通过初始重置2(Inception-r esnet2)模块，对视频帧进行编码，构建视频帧的向量表示，并融合每个视频帧的向量表示，以得到视频融合特征，即通过视频融合特征表征视频的所有视频帧信息，例如通过网络局部聚合向量(Net Vector ofLocal Aggregated Descri ptors，NetVLAD)模型，对每个视频帧的向量表示进行加权求和等处理，以得到视频融合特征；还可以抽取音频的音频帧序列，并对音频帧序列中的每个音频帧进行编码处理，以得到音频帧的向量表示，例如通过一种神经网络模型(V GGish模型)，从音频帧的波形中提取出具有语义的128维特征向量，以构建音频帧的向量表示，并融合每个音频帧的向量表示，以得到音频融合特征，即通过音频融合特征表征视频的所有音频帧信息，例如通过NetVLAD模型，对每个音频帧的向量表示进行加权求和等处理，以得到音频融合特征；还可以对多媒体信息的标题中每个位置的文本进行编码处理，以构建对应每个文本的向量，并将每个位置的向量组合为向量序列，以构建标题的文本特征。

例如，当多媒体信息的种类为音频时，可以抽取音频的音频帧序列，并对音频帧序列中的每个音频帧进行编码处理，以得到音频帧的向量表示，例如通过VGGish模型，从音频帧的波形中提取出具有语义的128维特征向量，以构建音频帧的向量表示，并融合每个音频帧的向量表示，以得到音频融合特征，例如通过NetVLAD模型，对每个音频帧的向量表示进行加权求和等处理，以得到音频融合特征；还可以对多媒体信息的标题中每个位置的文本进行编码处理，以构建对应每个文本的向量，并将每个位置的向量组合为向量序列，以构建标题的文本特征。

在一些实施例，对多媒体信息进行类型识别处理，得到多媒体信息的类型，包括：将视频融合特征、音频融合特征和文本特征进行融合处理，得到多媒体信息的多模态融合特征；将多模态融合特征映射为对应多个候选多媒体信息类型的概率，并将最大概率的候选多媒体信息类型确定为多媒体信息的类型。

为了实现对多媒体信息进行多任务联合识别，即类型识别处理和错误识别处理。在对多媒体信息进行类型识别之前，可以融合多媒体信息的视频融合特征、音频融合特征和文本特征，以得到多媒体信息的多模态融合特征，例如，可以对视频融合特征、音频融合特征和文本特征进行加权求和，将加权求和的结果作为多媒体信息的多模态融合特征，其中，通过加权求和的方式，当视频融合特征为识别多媒体的类型作为的贡献比较大时，可以设置视频融合特征的权重值比较大，从而通过加权求和的方式，可以准确地确定出多模态融合特征，以便后续根据多模态融合特征，准确地识别出多媒体信息的类型；也可以将视频融合特征、音频融合特征和文本特征进行拼接，将拼接结果作为多媒体信息的多模态融合特征，从而通过简单的拼接，即可快速生成多模态融合特征，以节约服务器的计算资源。当确定出多媒体信息的多模态融合特征后，通过全连接层将多模态融合特征映射为对应多个候选多媒体信息类型的概率，并将最大概率的候选多媒体信息类型确定为多媒体信息的类型，从而根据类型识别处理，识别出多媒体信息的类型，例如，识别出当前视频为综艺视频。

在步骤102中，对多媒体信息的标题进行错误识别处理，得到标题中的错误位置。

为了实现修正多媒体信息的标题，需要通过对多媒体信息的标题进行错误识别处理，得到标题中的错误位置，例如识别出标题的错误位置为第2-5个字所处的位置。其中，标题中的错误位置可以为连续的位置，也可以是间断的位置，例如标题中第3-5的位置为错误位置，或者标题中第3-5的位置、第7-8的位置为错误位置

在一些实施例中，对多媒体信息的标题进行错误识别处理，得到标题中的错误位置，包括：将标题的文本特征映射为对应标题中每个位置的错误概率，并将错误概率大于错误阈值的位置确定为错误位置。

例如，当对多媒体信息的标题中每个位置的文本进行编码处理，以构建对应每个文本的向量，并将每个位置的向量组合为向量序列，以构建标题的文本特征后，通过来自变换器的双向编码器表征量(Bidirectional Encoder Represen tations fromTransformers，BERT)模型，将标题的文本特征映射为对应标题中每个位置的错误概率(对应标题中每个文本的错误概率)，将错误概率大于错误阈值的位置确定为错误位置，例如错误阈值为0.85，标题中第3个位置的错误概率为0.9，则标题中第3个位置为标题的错误位置。

在一些实施例中，可以通过调用多任务识别模型中的视频类型分类子模型来进行类型识别处理；通过调用多任务识别模型中的错误分类子模型来进行错误识别处理。即类型识别处理和错误识别处理是通过调用多任务识别模型实现的。

参见图5，图5是本发明实施例提供的基于人工智能的多媒体信息的标题修正方法的一个可选的流程示意图，图5示出在步骤101和步骤102之前，还包括步骤107-109：在步骤107中，通过多任务识别模型对多媒体信息样本进行类型识别处理，得到多媒体信息样本的预测类型，并对多媒体信息样本的标题进行错误识别处理，得到标题中的预测错误位置；在步骤108中，根据多媒体信息样本的预测类型、多媒体信息样本的多媒体信息类型标注、多媒体信息样本中的预测错误位置以及多媒体信息样本中错误位置标注，构建多任务识别模型的损失函数；在步骤109中，更新多任务识别模型的参数直至损失函数收敛，将损失函数收敛时多任务识别模型的更新的参数，作为训练后的多任务识别模型的参数。

其中，当服务器获得多媒体信息样本后，根据多媒体信息样本的预测类型、多媒体信息样本的多媒体信息类型标注、多媒体信息样本中的预测错误位置以及多媒体信息样本中错误位置标注，确定多任务识别模型的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定多任务识别模型的误差信号，将误差信息在多任务识别模型中反向传播，并在传播的过程中更新各个层的模型参数。其中，损失函数为

其中，y′表示多媒体信息样本的预测类型，y_i表示多媒体信息样本的多媒体信息类型标注，x′表示多媒体信息样本中的预测错误位置，x_i表示多媒体信息样本中错误位置标注，N表示多媒体信息样本的总数量。其中，关于

的各种变型公式都适用于本发明实施例。

另外，多任务识别模型可以包括类型识别模型(视频类型分类子模型)以及标题错误识别模型(错误分类子模型)，即通过分别训练类型识别模型以及标题错误识别模型以实现多任务识别模型的训练。针对类型识别模型的训练如下：通过类型识别模型对多媒体信息样本进行类型识别处理，得到多媒体信息样本的预测类型；根据多媒体信息样本的预测类型以及多媒体信息样本的多媒体信息类型标注，构建类型识别模型的损失函数；更新类型识别模型的参数直至损失函数收敛，将损失函数收敛时类型识别模型的更新的参数，作为训练后的类型识别模型的参数。针对标题错误识别模型的训练如下：通过标题错误识别模型对多媒体信息样本中的标题进行错误识别处理，得到多媒体信息样本中的预测错误位置；根据多媒体信息样本中的预测错误位置以及多媒体信息样本中错误位置标注，构建标题错误识别模型的损失函数；更新标题错误识别模型的参数直至损失函数收敛，将损失函数收敛时标题错误识别模型的更新的参数，作为训练后的标题错误识别模型的参数。在得到训练后的类型识别模型和训练后的标题错误识别模型后，可以通过训练后的类型识别模型对多媒体信息进行类型识别处理，得到多媒体信息的类型，通过训练后的标题错误识别模型对多媒体信息的标题进行错误识别处理，得到标题的错误位置。

这里，通过分别训练类型识别模型和标题错误识别模型，可以分别实现类型识别和错误识别的任务，即类型识别和错误识别是相互独立的、互不影响，避免类型识别和错误识别中的一个任务出现错误时，另一个任务也会出现错误，从而提高类型识别和错误识别的鲁棒性。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，多任务识别模型、类型识别模型和标题错误识别模型属于神经网络模型。

通过机器学习模型的方式来求解多任务识别模型的参数，相较于相关技术中多任务识别模型的参数依赖于经验设定而言具有更好的精度。

为了在训练的过程中能够快速、准确地生成训练样本，可以从多媒体信息的正样本集合中抽取多媒体信息正样本的标题中的部分文本；从文本库中查询与部分文本对应的错误文本；将标题中的部分文本替换为错误文本，以生成包含错误文本的多媒体信息负样本，并将错误文本的位置确定为多媒体信息负样本的错误位置标注。

在本发明实施例中发现，大多数的多媒体信息的标题是正确的，即获取多媒体信息正样本比较容易。为了能够快速且准确地获取多媒体信息负样本，因此，可以先从多媒体信息的正样本集合中抽取多媒体信息正样本，并随机抽取多媒体信息正样本中的部分文本、即部分字，例如标题有5个字，则部分文本为标题中的前3个字，并从文本库中查询与该部分文本对应的错误文本，该错误文本可以是与部分文本字形、拼音等类似的文本，并将标题中的部分文本替换为错误文本，从而生成准确的包含错误文本的多媒体信息负样本，以便后续根据该多媒体信息负样本训练多任务识别模型。

在步骤103中，根据错误位置的文本搜索与类型对应的候选修正数据库，得到用于修正错误位置的文本的多个候选修正文本。

为了能够针对性地获得用于修正错误位置的文本的候选修正文本，可以在服务器获得多媒体信息的类型后，确定与多媒体信息的类型对应的候选修正数据库，并根据多媒体信息的错误位置的文本搜索该候选修正数据库，从而获得有针对性的候选修正文本。

在一些实施例中，根据错误位置的文本搜索与类型对应的候选修正数据库，得到用于修正错误位置的文本的多个候选修正文本，包括：针对与多媒体信息的类型对应的候选修正数据库，执行以下处理至少之一：查询与错误位置的文本的拼音对应的候选修正文本；查询与错误位置的文本的字形对应的候选修正文本；查询与错误位置的文本中的部分文本对应的候选修正文本。

例如，在确定了多媒体信息的类型后，可以确定与之对应的候选修正数据库，例如，确定多媒体信息的类型为电视剧，则确定候选修正数据库为电视剧候选数据库，该电视剧候选数据库中包括与电视剧相关的剧名、演员、角色、常用词等信息。其中，候选修正数据库支持拼音索引、字形索引、部分相似索引，可通过对错误位置的文本的字形、拼音、部分相似来查询候选修正数据库，以查询到与错误位置的文本的拼音对应的候选修正文本、与错误位置的文本的字形对应的候选修正文本以及与错误位置的文本中的部分文本对应的候选修正文本。

在步骤104中，对多个候选修正文本进行筛选，将筛选后得到的候选修正文本作为修正文本。

例如，在服务器获得多个候选修正文本后，可以从多个候选修正文本中筛选出修正文本，以便后续根据修正文本修正多媒体信息的标题。

参见图6，图6是本发明实施例提供的基于人工智能的多媒体信息的标题修正方法的一个可选的流程示意图，图6示出图3的步骤104可通过图6中的步骤1041-1045实现：针对多个候选修正文本中的任一候选修正文本，执行以下处理：在步骤1041中，将标题的错误位置的文本替换为候选修正文本，以生成修正后的标题；在步骤1042中，通过语言模型对修正前的标题进行通顺程度预测处理，得到修正前的标题的通顺程度；在步骤1043中，通过语言模型对修正后的标题进行通顺程度预测处理，得到修正后的标题的通顺程度；在步骤1044中，将标题修正前后的通顺程度的差值，作为候选修正文本的语言通顺程度；在步骤1045中，当候选修正文本的语言通顺程度大于与多媒体信息的类型对应的语言通顺程度阈值时，将候选修正文本作为标题的修正文本。

例如，当通过标题的错误位置的文本修正多媒体信息的标题后，通过语言模型分别预测修正前的标题和修正后的标题，并得到标题修正前后的通顺程度，当标题修正前后的通顺程度的差值大于与多媒体信息的类型对应的语言通顺程度阈值时，则说明修正后的标题通顺程度比较高，即修正后的标题是正确的，其中，由于多媒体信息的类型不同，则与多媒体信息的类型对应的语言通顺程度阈值也各不相同。另外，还可以将标题的错误位置的文本替换为候选修正文本，以生成修正后的标题后，通过语言模型对修正后的标题进行通顺程度预测处理，得到修正后的标题的通顺程度，当修正后的标题的通顺程度大于与多媒体信息的类型对应的语言通顺程度阈值时，将候选修正文本作为标题的修正文本。其中，语言模型属于神经网络模型。

为了能够准确地获得标题修正前后的通顺程度，可以通过类型个性化语言模型以及通用语言模型分别进行通顺程度预测处理。语言模型包括类型个性化语言模型以及通用语言模型；通过语言模型对修正后的标题进行通顺程度预测处理，得到修正后的标题的通顺程度，包括：通过类型个性化语言模型对修正后的标题进行通顺程度预测处理，得到修正后的标题的第一通顺程度；通过通用语言模型对修正后的标题进行通顺度预测处理，得到修正后的标题的第二通顺程度；对第一通顺程度以及第二通顺程度进行加权求和，以得到修正后的标题的最终通顺程度。

其中，类型个性化语言模型为根据与多媒体信息的类型对应的多媒体信息样本训练得到的，通用语言模型为根据包括所有多媒体信息的类型的多媒体信息样本训练得到的，即类型个性化语言模型可以针对性对某一类型的多媒体信息的标题进行通顺程度预测处理，而通用语言模型可以为所有类型的多媒体信息的标题进行通顺程度预测处理。其中，当类型个性化语言模型为修正后的标题的最终通顺程度做出的贡献大时，可以设置第一通顺程度的权重值比较大。其中，类型个性化语言模型和通用语言模型属于神经网络模型。

在一些实施例中，与多媒体信息的类型对应的语言通顺程度阈值可以是动态的，即将候选修正文本作为标题的修正文本之前，还包括：对修正前的标题进行分词处理，以得到修正前的标题包括的文本的数量；对修正后的标题进行分词处理，以得到修正后的标题包括的文本的数量；将标题的修正前后包括的文本的数量的差值，作为标题的参考阈值；将多媒体信息的类型对应的语言类型阈值与标题的参考阈值的差值，确定为与多媒体信息的类型对应的语言通顺程度阈值。

例如，修正前的标题由于错误，导致分词后的碎词比较多、即包括的文本的数量比较多，当修正了标题中的错误后，修正后的标题包括的文本的数量极可能比较少，因此，当修正后的标题包括的文本的数量相对于修正前的标题包括的文本的数量减少，则说明纠正了标题中的错误，需要保留该候选修正文本，以作为标题最终的修正文本。本发明实施例可以将标题的修正前后包括的文本的数量的差值，作为标题的参考阈值，并将多媒体信息的类型对应的语言类型阈值与标题的参考阈值的差值，确定为与多媒体信息的类型对应的语言通顺程度阈值，其中，由于多媒体信息的类型不同，则与多媒体信息的类型对应的语言类型阈值也不同，例如，对综艺的标题的要求相对于电视剧的标题的要求高时，可以设置与综艺对应的语言通顺程度阈值为0.9，而与电视剧对应的语言通顺程度阈值为0.7。其中，多媒体信息的类型对应的语言类型阈值与标题的参考阈值的差值的其他变型计算方式，也适用于本发明实施例。

在步骤105中，将标题的错误位置的文本替换为修正文本，以形成多媒体信息的正确标题。

例如，在服务器获得修正文本后，可以将标题的错误位置的文本替换为修正文本，以修正多媒体信息的标题。服务器可以将修正后的多媒体信息的标题返回至终端，并显示在终端的显示界面上，以便运维人员核查修正的多媒体信息，或者，服务器将修正的多媒体信息存入多媒体数据库，后续可直接从多媒体数据库中调用准确的多媒体信息，进行相应的多媒体信息的应用，例如播放视频、音频等。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例可以应用于视频的标题修正的应用场景中，如图1所示，终端200通过网络300连接部署在云端的服务器100，在终端200上安装标题修正客户端，运维人员在标题修正客户端中，输入某视频以及对应的标题，终端200通过网络300向服务器100发送该视频以及对应的标题，服务器100接收到视频以及对应的标题后，根据识别出的多媒体信息的类型，在候选修正数据库中搜索出用于修正错误位置的文本的修正文本，将识别出的标题的错误位置的文本替换为修正文本，并将修正后的多媒体信息的标题返回至标题修正客户端，并将修正后的多媒体信息的标题显示在终端200的显示界面210上，以便运维人员核查修正的多媒体信息，或者，服务器100将修正的多媒体信息存入多媒体数据库。

相关技术中，主要通过两种方式实现标题修正，分别为：1)基于语言模型判断标题是否通顺，当判定不通顺时，则判定标题存在错误，然后纠正该标题；2)基于生成模型，构建端到端的生成模型以纠正标题。

虽然，上述两种方案可以实现标题修正。但是，视频的标题的修正不准确。为了解决该问题，本发明实施例通过对视频细化类型，将视频类型识别、错误识别进行多任务联合学习，充分利用具体类型的领域知识辅助标题的修正，提升视频标题的纠错能力，更好地辅助视频审核阶段，进一步提升人工纠错的效率，降低视频的错误标题对用户的影响。

如图7所示，本发明实施例提供的视频的标题修正方法的整体流程包括五个步骤，分别为：1)视频信息获取；2)视频类型、标题错误多任务识别；3)基于类型知识构建候选修正文本列表；4)纠正候选修正文本列表排序；5)返回修正结果，其中，具体的处理过程如下：

1)视频信息获取

其中，视频信息包括视频的标题、图像帧、音频帧，例如采用视音频编解码工具(ffmpeg)均匀抽帧的方法，每秒抽取视频中的一图像帧，该图像的像素值作为每一图像帧的原始表示输入。音频帧同样可采用ffmpeg均匀抽帧的方法，抽取视频中的音频帧，并通过对音频帧构建梅尔频谱图特征，将梅尔频谱图特征作为音频帧的原始表示输入。

2)视频类型、标题错误多任务识别

由于不同的视频类型具有不同的类型错误特性，例如电视剧类的视频的错误可以是电视剧名错误、演员名错误等，将标题错误判定和视频类型判定进行多任务联合学习，既能提升多任务识别模型表示层的表示能力，同时还能提升标题错误判定的准确性，而且还可以为后续构建候选修正文本列表提供类型指导。其中，多任务识别模型的处理流程如图8所示，抽取视频的视频帧序列后，通过Inception-resnet2模块对视频帧序列进行编码，以构建视频帧表示(视频帧的向量表示)，并通过NetVLAD模型对视频帧表示进行特征融合，以得到视频融合特征；抽取视频的音频帧序列后，通过VGGish模型对音频帧序列进行编码，以构建音频帧表示(音频帧的向量表示)，并通过NetVLAD模型对音频帧表示进行特征融合，以得到音频融合特征；通过BERT模型对视频的标题进行编码，以构建标题表示，以生成标题的文本特征，通过对视频融合特征、音频融合特征以及文本特征进行多模态特征融合，并通过全连接层网络，输出视频分类概率，以根据视频分类概率，确定视频的类型。在通过BERT模型获得标题的文本特征后，可以根据文本特征，识别出标题的错误位置(输出错误判定)。

其中，多任务识别模型包括类型识别模型，该类型识别模型通过对视频标题文本(文本特征)、视频图像内容(视频帧)、音频内容(音频帧)进行多模态联合建模，能够准确地判定视频的类型，如电视剧、电影、综艺、音乐、游戏、动漫等。多任务识别模型还包括标题错误判定模型，该标题错误判定模型可以对标题文本进行错误识别学习。

为了充分对多任务识别模型进行训练，可以先对视频类型识别和标题错误识别两个任务分别进行训练，例如，类型识别模型可以在大量已标注类型的视频训练样本上进行训练，使得类型识别模型通过多模态特征学到比较好的识别水平，其中，训练样本格式为视频-类型：XX，例如，训练样本为(视频1-类型：电视剧)、(视频2-类型：电影)、(视频3-类型：综艺)、(视频4-类型：体育)、(视频5类型：游戏)、…、(视频v-类型：动漫)。

其中，标题错误识别模型可以通过人工标注和自动错误生成的训练样本上进行单独训练，以强化文本表示能力，其中，自动构建错误数据集可以通过在视频的正确标题中随机选取某词片段(正确文本)，确定与该词片段的字形、拼音相似的词(错误文本)，将正确文本替换为错误文本，生成负样本以构建错误数据集，使得构建的错误数据集更加符合真实错误分布。其中，标题错误识别模型的训练样本格式为视频-标题-错误位置：XX，例如，训练样本为(视频1-标题1-错误位置：1-3)、(视频2-标题2-错误位置：3-4)、(视频3-标题3-错误位置：3-5)、(视频4-标题4-错误位置：7-8)、(视频5-标题5-错误位置：6-8)、…、(视频v-标题v-错误位置：4-6)。

类型识别模型和标题错误识别模型单独训练完成后，可以再进行联合训练，联合训练时类型识别模型和标题错误识别模型分别采用单独训练的模型参数进行初始化，联合训练的训练样本格式为视频-类型：XX-标题-错误位置：XX，例如，训练样本为(视频1-类型：电视剧-标题1-错误位置：1-3)、(视频2-类型：电影-标题2-错误位置：3-4)、(视频3-类型：综艺-标题3-错误位置：3-5)、(视频4-类型：体育-标题4-错误位置：7-8)、(视频5-类型：游戏-标题5-错误位置：6-8)、…、(视频v-类型：动漫-标题v-错误位置：4-6)。

通过上述方法构建多任务识别模型后，当对视频进行标题错误识别时，通过将视频信息输入多任务识别模型，多任务识别模型返回视频类型，并将错误位置识别出来，如视频标题为“AA现场电影主题曲，倾诉祖国发展历程”，多任务识别模型识别为音乐类型，如图9所示，通过BERT模型(多任务识别模型)识别出错位位置为“现场”处，“现场”实际上为“现唱”；标题为“【反制】AA最美最仙最可爱的每一个瞬间”，多任务识别模型识别为综艺类型，错位位置为“反制”处。

3)基于类型知识构建候选修正文本列表

预先对每种视频类型构建对应的候选修正数据库，如针对电视剧类的视频，将剧名、演员、角色、常用词统计出来，以构建电视剧类候选修正数据库；针对游戏类的视频，将游戏名、角色名、地图、副本、常用语进行统计，以构建游戏类候选修正数据库；针对体育类的视频，将运动员、体育明星、赛名、场地、解说员等预先统计出来，以构建体育类候选修正数据库，即每种类型在构建时只使用本类型的视频数据进行构建。其中，候选修正数据库支持拼音索引、字形索引、部分相似索引(基于弹性搜索(ElasticSearch，ES)字粒度实现)，可通过对错误位置的文本的字形、拼音、部分相似来查询候选修正数据库，以获得候选修正文本。

基于识别出的视频类型与错误位置，查询相应类型的候选修正数据库，构建候选修正文本列表，查询候选修正数据库时，可以基于相似进行检索，例如拼音相似、字形相似、部分相似，例如，错误位置的文本为“反制”，通过查询综艺类候选修正数据库，基于拼音相似查询出“饭制”综艺名的候选修正文本和“范郅”综艺人物的候选修正文本，基于部分相似查询到“食制”的候选修正文本。

4)纠正候选修正文本列表排序

语言模型的输出结果可以反映语句的通顺程度，本发明实施例使用长短期记忆人工神经网络(Long Short-Term Memory，LSTM)语言模型对原始标题和修正后的标题进行打分，依据修正后的语言通顺程度的提升幅度(标题修正前后的通顺程度的差值)对候选修正文本进行降序排序，即提升幅度越大，则候选修正文本的排序位置越靠前。

语言模型可以包括类型个性化语言模型和通用语言模型，类型个性化语言模型在具体类型的视频标题上进行训练，通用语言模型在所有类型的视频上进行训练。对类型个性化语言模型和通用语言模型输出的得分(通顺程度)进行加权求和，将加权求和的结果作为最终的语言模型得分(通顺程度)。其中，加权系数可以根据实际需求进行调整，例如类型个性化语言模型的权重为0.7，通用语言模型的权重为0.3。

5)返回修正结果

对上述语言模型的候选修正文本列表排序进行阈值过滤，其中，每种视频类型可设定不同的阈值。另外，将标题修正前后包括的分词数量的差值作为设定不同阈值的参考指标，例如由于原始标题(修正前的标题)因为错误导致分词后，分词的数量较多，而修正错误后，修正后的标题的分词数量减少，因此可降低过滤阈值，从而可有效地保留符合阈值的候选修正文本作为最终的修正文本，并将标题中的错误位置的文本替换为最终的修正文本，以实现修正视频的标题。

综上，本发明实施例提出一种多任务联合学***台中的视频质量。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的多媒体信息的标题修正方法，下面继续说明本发明实施例提供的多媒体信息的标题修正装置中各个模块配合实现多媒体信息的标题修正的方案。

在一些实施例中，本发明实施例提供的多媒体信息的标题修正装置可以采用软件方式实现，图10示出了存储在存储器550中的多媒体信息的标题修正装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括识别模块5551、搜索模块5552、筛选模块5553、替换模块5554、提取模块5555、训练模块5556、生成模块5557以及处理模块5558；其中，识别模块5551、搜索模块5552、筛选模块5553、替换模块5554、提取模块5555以及处理模块5558用于实现本发明实施例提供的多媒体信息的标题修正的功能，训练模块5556以及生成模块5557用于实现对多任务识别模型的训练。

其中，识别模块5551，用于对多媒体信息进行类型识别处理，得到所述多媒体信息的类型；对所述多媒体信息的标题进行错误识别处理，得到所述标题中的错误位置；搜索模块5552，用于根据所述错误位置的文本搜索与所述类型对应的候选修正数据库，得到用于修正所述错误位置的文本的多个候选修正文本；筛选模块5553，用于对所述多个候选修正文本进行筛选，将筛选后得到的候选修正文本作为修正文本，并替换模块5554，用于将所述标题的错误位置的文本替换为所述修正文本，以形成所述多媒体信息的正确标题。

在一些实施例中，所述装置还包括：提取模块5555，用于提取所述多媒体信息的多个模态的特征；其中，当所述多媒体信息为视频时，所述多个模态的特征包括：视频融合特征、音频融合特征和所述多媒体信息的标题的文本特征。

在一些实施例中，所述提取模块5555还用于对所述多媒体信息中每个视频帧进行编码处理，得到所述每个视频帧的向量表示，并对所述每个视频帧的向量表示进行融合处理，得到所述视频融合特征；对所述多媒体信息中每个音频帧进行编码处理，得到所述每个音频帧的向量表示，并对所述每个音频帧的向量表示进行融合处理，得到所述音频融合特征；对所述多媒体信息的标题中每个位置的文本进行编码处理，得到对应的向量，并将所述每个位置的向量组合为向量序列，以作为所述标题的文本特征。

在一些实施例中，所述识别模块5551还用于将所述视频融合特征、所述音频融合特征和所述文本特征进行融合处理，得到所述多媒体信息的多模态融合特征；将所述多模态融合特征映射为对应多个候选多媒体信息类型的概率，并将最大概率的候选多媒体信息类型确定为所述多媒体信息的类型。

在一些实施例中，所述识别模块5551还用于将所述标题的文本特征映射为对应所述标题中每个位置的错误概率，并将错误概率大于错误阈值的位置确定为所述错误位置。

在一些实施例中，所述识别模块5551还用于通过调用多任务识别模型中的视频类型分类子模型来进行所述类型识别处理；通过调用所述多任务识别模型中的错误分类子模型来进行所述错误识别处理。

在一些实施例中，所述装置还包括：训练模块5556，用于通过所述多任务识别模型对多媒体信息样本进行类型识别处理，得到所述多媒体信息样本的预测类型，并对所述多媒体信息样本的标题进行错误识别处理，得到所述标题中的预测错误位置；根据所述多媒体信息样本的预测类型、所述多媒体信息样本的多媒体信息类型标注、所述多媒体信息样本中的预测错误位置以及所述多媒体信息样本中错误位置标注，构建所述多任务识别模型的损失函数；更新所述多任务识别模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述多任务识别模型的更新的参数，作为训练后的所述多任务识别模型的参数。

在一些实施例中，所述装置还包括：生成模块5557，用于从所述多媒体信息的正样本集合中抽取多媒体信息正样本的标题中的部分文本；从文本库中查询与所述部分文本对应的错误文本；将所述标题中的部分文本替换为所述错误文本，以生成包含错误文本的多媒体信息负样本，并将所述错误文本的位置确定为所述多媒体信息负样本的错误位置标注。

在一些实施例中，所述搜索模块5552还用于针对与所述多媒体信息的类型对应的候选修正数据库，执行以下处理至少之一：查询与所述错误位置的文本的拼音对应的所述候选修正文本；查询与所述错误位置的文本的字形对应的所述候选修正文本；查询与所述错误位置的文本中的部分文本对应的所述候选修正文本。

在一些实施例中，所述筛选模块5553还用于针对所述多个候选修正文本中的任一所述候选修正文本，执行以下处理：将所述标题的错误位置的文本替换为所述候选修正文本，以生成修正后的标题；通过语言模型对修正前的所述标题进行通顺程度预测处理，得到所述修正前的所述标题的通顺程度；通过所述语言模型对所述修正后的标题进行通顺程度预测处理，得到所述修正后的标题的通顺程度；将所述标题修正前后的通顺程度的差值，作为所述候选修正文本的语言通顺程度；当所述候选修正文本的语言通顺程度大于与所述多媒体信息的类型对应的语言通顺程度阈值时，将所述候选修正文本作为所述标题的修正文本。

在一些实施例中，所述语言模型包括类型个性化语言模型以及通用语言模型；所述筛选模块5553还用于通过所述类型个性化语言模型对所述修正后的标题进行通顺程度预测处理，得到所述修正后的标题的第一通顺程度；通过所述通用语言模型对所述修正后的标题进行通顺度预测处理，得到所述修正后的标题的第二通顺程度；对所述第一通顺程度以及所述第二通顺程度进行加权求和，以得到所述修正后的标题的最终通顺程度；其中，所述类型个性化语言模型为根据与所述多媒体信息的类型对应的多媒体信息样本训练得到的，所述通用语言模型为根据包括所有多媒体信息的类型的多媒体信息样本训练得到的。

在一些实施例中，所述装置还包括：处理模块5558，用于对所述修正前的所述标题进行分词处理，以得到所述修正前的所述标题包括的文本的数量；对所述修正后的标题进行分词处理，以得到所述修正后的标题包括的文本的数量；将所述标题的修正前后包括的文本的数量的差值，作为所述标题的参考阈值；将所述多媒体信息的类型对应的语言类型阈值与所述标题的参考阈值的差值，确定为与所述多媒体信息的类型对应的语言通顺程度阈值。

本发明实施例通过对多媒体信息的标题进行错误识别处理，得到标题中的错误位置，并将标题的错误位置的文本替换为用于修正错误位置的文本的修正文本，从而能够自动地修正多媒体信息的标题，提高标题修正的效率；进而，根据错误位置的文本搜索与多媒体信息的类型对应的候选修正数据库，得到用于修正错误位置的文本的多个候选修正文本，并从多个候选修正文本中筛选出修正文本，即能够充分利用具体的多媒体信息的类型的知识，在候选修正数据库中准确地搜索到修正文本，从而能够根据修正文本，准确地修正多媒体信息的标题，提高标题修正的准确率。

本发明实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的多媒体信息的标题修正方法，例如，如图3-6示出的基于人工智能的多媒体信息的标题修正方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

28页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于表情词典与情感常识的微博情感分析方法

多媒体信息的标题修正方法、装置、电子设备及存储介质

相关技术

网友询问留言