一种模态信息补全方法、装置及设备

文档序号：437169 发布日期：2021-12-24 浏览：5次 >En<

阅读说明：本技术 一种模态信息补全方法、装置及设备 (Modal information completion method, device and equipment ) 是由李太松李明磊吴益灵怀宝兴袁晶于 2020-06-23 设计创作，主要内容包括：一种模态信息补全方法、装置及设备,本申请中,补全装置先获取模态信息组,该模态信息组包括至少两个模态信息；之后,补全装置可以根据该模态信息组的属性,判断该模态信息组中第一模态信息是否缺失部分或全部；之后,基于预设的特性向量映射关系,根据模态信息组中第二模态信息的特征向量确定第一模态信息的目标特征向量。补全装置利用第二模态信息的特征向量确定的该第一模态信息的目标特征向量更贴近与第一模态信息真实的模态信息,保证了第一模态信息的目标特征向量的准确性。(A modal information completion method, device and apparatus, in this application, the completion device obtains the modal information group first, the modal information group includes at least two modal information; then, the completion device may determine whether the first modality information in the modality information group is missing partially or completely according to the attribute of the modality information group; and then, based on a preset characteristic vector mapping relation, determining a target characteristic vector of the first modality information according to a characteristic vector of the second modality information in the modality information group. The completion device determines that the target characteristic vector of the first modal information is closer to the modal information which is real with the first modal information by utilizing the characteristic vector of the second modal information, so that the accuracy of the target characteristic vector of the first modal information is ensured.)

一种模态信息补全方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种模态信息补全方法、装置及设备。

背景技术

模态是指信息来源或信息形式，模态的定义较为广泛，例如，人类的触觉、听觉、触觉、视觉、嗅觉都可以作为信息的来源，均可以看做一种模态。信息形式有语音、视频、文字等，分别可以作为一种模块。各种传感器，如雷达、压力计、加速度计等，也都是信息的来源，同样的，任一个传感器也可以作为一种模态。模态的定义较为广泛，并不仅限于上述列举的几种情况。例如，两种不同的语言可以认为是两种不同的模态，在两个不同场景下采集到的数据，也可以认为是两种不同的模态。

而多模态机器学习(multimodal machine learning，MMML)通过机器学习的方法获得处理和理解多个模态信息(一种模态信息是指模态的信息内容)的能力。目前，多模态机器学习多用于学习图像、视频、音频、文字等类型的模态信息。

但在多模态机器学习的过程中，通常会遇到模态缺失的情况，模态缺失是多个模态信息缺失至少一个模态信息中的部分信息或全部信息。模态缺失会影响多模态机器学习的准确程度。

目前，针对模态缺失的问题，常见的处理方式有数据清洗以及数据填充，数据清洗是指剔除缺失的模态信息中的剩余信息，数据清洗的方式会导致多个模态信息中将缺少至少一种模态的全部信息，使得在进行多模态机器学习时，不能对缺失的至少一种模态信息进行学习，多模态机器学习的效率变差。数据填充是指采用零值或模态信息的均值对缺失的至少一个模态部分信息进行填充，这种方式下填充的信息并不符合实际的模态信息的分布情况，使得在进行多模态机器学习时，不能对缺失的至少一种模态信息进行准确的学习。

综上，针对模态缺失的问题的处理方式均会导致多模态机器学习的效率变差，准确率变低。

发明内容

本申请提供一种模态信息补全方法、装置及设备，用以准确对模态信息进行补全。

第一方面，本申请提供了一种模态信息补全方法，该方法可以由补全装置执行，在该方法中，补全装置先获取模态信息组，该模态信息组包括至少两个模态信息；之后，补全装置可以根据该模态信息组的属性，判断该模态信息组中是否缺失一个或多个模态信息(也即一个或多个模态信息缺失了全部信息)，以及一个或多个模态信息是否缺失部分信息。为方便说明，缺失部分信息或全部信息的模态信息称为第一模态信息。模态信息组中除第一模态信息外的一个模态信息称为第二模态信息，补全装置可以提取该第二模态信息的特征向量；之后，基于预设的特性向量映射关系，根据第二模态信息的特征向量确定第一模态信息的目标特征向量。

通过上述方法，补全装置可以利用该模态信息组中第二模态信息的特征向量确定该第一模态信息的目标特征向量，利用第二模态信息的特征向量确定的该第一模态信息的目标特征向量更贴近第一模态信息真实的特征向量，保证了第一模态信息的目标特征向量的准确性。

在一种可能的实现方式中，补全装置在基于预设的特性向量映射关系，根据第二模态信息的特征向量确定第一模态信息的目标特征向量时，可以先基于特性向量映射关系，根据第二模态信息的特征向量确定第一模态信息的候选特征向量；之后，再根据第一模态信息的候选特征向量确定第一模态信息的目标特征向量。例如，补全装置可以对第一模态信息的候选特征向量进行调整，将调整后的第一模态信息的候选特征向量作为第一模态信息的目标特征向量，也可以直接将该第一模态信息的候选特征向量直接作为第一模态信息的目标特征向量。

通过上述方法，补全装置能够先确定第一模态信息的候选特征向量，之后再利用第一模态信息的候选特征向量确定第一模态信息的目标特征向量，以便最终确定的第一模态信息的目标特征向量能够更加接近与第一模态信息的真实的特征向量。

在一种可能的实现方式中，特性向量映射关系的设置方式有许多，例如，特性向量映射关系可以采用数据映射的方式设置，又例如，特性向量映射关系也可以采用机器学习模型的方式进行设置，机器学习模型学习了特性向量映射关系，能够用于根据输入的模态信息的特征向量输出其他的模态信息的特征向量。补全装置可以基于预设的机器学习模型，根据第二模态信息的特征向量确定第一模态信息的目标特征向量。

通过上述方法，补全装置可以利用机器学习模型的方式可以更加便捷的确定第一模态信息的目标特征向量。

在一种可能的实现方式中，模态信息组的属性包括下列的部分或全部：

模态信息组中模态信息的数量、模态信息组中每个模态信息的数据量、模态信息组中每个模态信息的类型。

通过上述方法，模态信息组的属性能够指示该模态信息组的一种或多种信息，以便补全装置能够较为快捷的确定第一模态信息缺失部分或全部。

在一种可能的实现方式中，补全装置提取第二模态信息的特征向量之前，除了确定第一模态信息缺失部分或全部，还可以根据模态信息组的属性，确定第二模态信息是完整的。

通过上述方法，补全装置根据模态信息组的属性能够快速区分出该模态信息组中缺失模态信息(如第一模态信息)或无缺失模态信息(如第二模态信息)。

在一种可能的实现方式中，补全装置确定该模态信息组的属性的方式有很多种，下面列举其中几种：

方式一、补全装置可以获取第一辅助信息，根据第一辅助信息确定模态信息组的属性，第一辅助信息能够指示该模态信息组的属性，也即可以指示下列的部分或全部：模态信息组中模态信息的数量、模态信息组中每个模态信息的数据量、模态信息组中每个模态信息的类型。

方式二、补全装置中预先设置有第二辅助信息，第二辅助信息为补全装置接收的任一模态信息组所需符合的信息，补全装置可以根据预设的第二辅助信息，确定模态信息组的属性，第二辅助信息可以指示下列的部分或全部：获取的任一模态信息组中模态信息的数量、获取的任一模态信息组中每个模态信息的数据量、获取的任一模态信息组中每个模态信息的类型。

方式三、补全装置根据其他模态信息组的属性确定模态信息组的属性，该其他模态信息组为在获取模态信息组之前所获取的模态信息组。

通过上述方法，补全装置可以通过多种不同的方式灵活的确定该模态信息组的属性。

在一种可能的实现方式中，模态信息组还包括第三模态信息；补全装置可以提取第三模态信息的特征向量；之后，基于预设的特性向量映射关系，根据第三模态信息的特征向量和第二模态信的特征向量确定第一模态信息的目标特征向量。

通过上述方法，补全装置可以根据该模态信息组中的多个模态信息的特征向量确定第一模态信息的目标特征向量。

在一种可能的实现方式中，补全装置在基于预设的特性向量映射关系，根据第三模态信息的特征向量和第二模态信的特征向量确定第一模态信息的目标特征向量时，可以基于特性向量映射关系，根据第三模态信息的特征向量确定第一模态信息的另一候选特征向量；之后，根据第一模态信息的候选特征向量和第一模态信息的另一候选特征向量确定第一模态信息的目标特征向量。

通过上述方法，补全装置可以根据多个第一模态信息的候选特征向量准确的确定第一模态信息的目标特征向量。

在一种可能的实现方式中，补全装置在根据第一模态信息的候选特征向量和第一模态信息的另一候选特征向量确定第一模态信息的目标特征向量时，可以为这两个候选特征向量配置对应的权重，之后，根据第一模态信息的候选特征向量和对应的权重、以及第一模态信息的另一候选特征向量和对应的权重，确定第一模态信息的目标特征向量。

通过上述方法，补全装置通过对该多个候选特征向量进行加权求和的方式，确定第一模态信息的目标特征向量。

在一种可能的实现方式中，补全装置在确定模态信息组缺失了第一模态信息的部分的情况下，补全装置还可以确定第一模态信息中缺失的部分是否符合预设条件。例如，可以确定第一模态信息缺失的部分信息的数据量或该缺失的部分信息的比例是否大于阈值或小于阈值。在确定符合预设条件后，补全装置可以确定第一模态信息的目标特征向量。

通过上述方法，补全装置可以进一步确定该第一模态信息中缺失的部分信息所需符合的预设条件，以便后续能够准确的确定出第一模态信息的目标特征向量。

在一种可能的实现方式中，模态信息组中包括多个模态信息，每个模态信息的类型可以不同。

通过上述方法，补全装置能够利用一个类型的模态信息的特征向量确定另一种类型的模态信息的目标特征向量。

在一种可能的实现方式中，本申请实施例并不限定第一模态信息或第二模态信息的类型，以第二模态信息为例，第二模态信息可以为语音类型的模态信息，也可以为图像类型的模态信息，还可以为文字类型的模态信息，第二模态信息还可以为结构化数据，对于不同类型的模态信息，补全装置可以采用不同的方式提取第二模态信息的特征向量，例如，该第二模态信息为结构化数据时，补全装置可以基于独热编码的方式，提取第二模态信息的特征向量。

通过上述方法，对于不同类型的第二模态信息，补全装置可以针对性的采用对应的方式确定第二模态信息的特征向量。

在一种可能的实现方式中，机器学习模型的具体类型并不限定，可以为Seq2Seq模型，也可以为MCTN。

第二方面，本申请实施例还提供了一种补全装置，有益效果可以参见第一方面的描述此处不再赘述。该装置具有实现上述第一方面的方法实例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述装置的结构中包括信息获取模块、特征提取模块、补全模块。这些模块可以执行上述第一方面方法示例中的相应功能，具体参见方法示例中的详细描述，此处不做赘述。

第三方面，本申请实施例还提供了一种计算设备，所述计算设备包括处理器和存储器，还可以包括通信接口，所述处理器执行所述存储器中的程序指令执行上述第一方面或第一方面任一可能的实现方式提供的方法。所述存储器与所述处理器耦合，其保存确定交通流量的过程中必要的程序指令和数据。所述通信接口，用于与其他设备进行通信，例如接收模态信息组，又例如发送缺失模态信息的目标特征向量和缺失模态信息的特征向量。

第四方面，本申请提供了一种计算设备集群，该计算设备集群包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第五方面，本申请提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第六方面，本申请提供了一种计算设备程序产品，所述计算设备程序产品包括计算机指令，在被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

第七方面，本申请还提供一种计算机芯片，芯片与存储器相连，芯片用于读取并执行存储器中存储的软件程序，执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。

附图说明

图1为本申请提供的一种系统的结构示意图；

图2为本申请提供的一种补全装置的结构示意图；

图3为本申请提供的一种模态信息补全方法示意图；

图4为本申请提供的一种机器学习模型的训练示意图；

图5A为本申请提供的一种语音类型和图像类型的模态信息补全方法示意图；

图5B为本申请提供的一种文字类型的模态信息补全方法示意图；

图6为本申请提供的一种计算机集群的结构示意图；

图7为本申请提供一种系统的结构示意图。

具体实施方式

如图1所示，为本申请实施例适用的一种系统结构示意图，该系统包括采集设备100、补全装置200，可选的，还可以包括信息处理设备300。

采集设备100用于采集信息，采集设备100采集的信息可以作为模态信息，本申请实施例并不限定采集设备100的数量以及具体形态，该系统中可以包括一个或多个采集设备100。采集设备100可以是传感器、摄像机、智能相机、监控设备、手机(mobile phone)、平板电脑(pad)、带收发功能的电脑、智慧城市(smart city)中的终端设备、智慧家庭(smarthome)中的终端设备、物联网(internet of things，IoT)终端设备等，凡是能够进行信息采集的设备均适用于本申请实施例。

采集设备100采集的信息可以作为一种模态信息，也可以为包括多个模态信息的模态信息组。例如采集设备100可以为手机，通过手机上设置的麦克风可以采集语音类型的模态信息，通过手机上的摄像头可以采集图像类型的模态信息，还可以通过手机上安装的应用程序(如微信、QQ)等采集文字类型的模态信息。采集设备100可以为摄像机，摄像机可以采集视频。视频可以作为模态信息组，其中，视频包括语音、图像、以及文字类型的模态信息。

补全装置200可以从采集设备100中获取模态信息组，执行本申请实施例提供的模态信息补全方法，采集设备100与补全装置200之间存在连接，本申请实施例并不限定采集设备100与补全装置200之间的连接方式。例如，采集设备100可以通过无线或有线的方式与补全装置200连接。又例如，补全装置200(或补全装置200中的部分模块)也可以设置在采集设备100中，在采集设备100采集到模态信息组后，可以较快速的获取模态信息组，执行本申请实施例提供的模态信息补全方法。

信息处理设备300可以从补全装置200中获取模态信息组中各个模态信息的特征向量，该模态信息组中各个模态信息的特征向量包括缺失模态信息的目标特性向量和无缺失模态信息的特性向量，根据模态信息组中各个模态信息的特征向量，对模态信息组进行处理和理解。例如，信息处理设备300中包括多模态机器学习模型，具备对模态信息组进行处理和理解的能力。信息处理设备300对模态信息组进行处理以及理解的方式，与多模态机器学习模型的应用场景有关。

例如，在情感识别场景中，信息处理设备300可以对模态信息组进行情感识别，预测模态信息组中隐藏的情绪。又例如，若模态信息组为视频，信息处理设备300可以基于视频生成视频标签(用于标识该视频的类别)，还可以提取视频特征(如视频的类别、时长等)进行视频推荐，将该视频推荐给对该视频存在潜在需求的用户。又例如，信息处理设备300可以对模态信息组进行分析，检测模态信息组中的目标信息(如虚假广告、暴力内容等)。又例如，若模态信息组中包括语音类型的模态信息，或模态信息组为展示唇形的视频，信息处理设备300可以对模态信息组进行语音识别，确定语音内容。又例如，若模态信息组中包括人脸信息、声纹信息、人体的步态信息、指纹信息或虹膜信息，信息处理设备300可以对模态信息组进行身份识别，确定模态信息组所属的用户信息。

上述列举的几种场景仅是举例，本申请实施例并不限定信息处理设备300对模态信息组进行处理以及理解的方式。

信息处理设备300与补全装置200之间存在连接，信息处理设备300与补全装置200之间的连接方式与采集设备100与补全装置200之间的连接方式相似，具体可参见前述内容，此处不再赘述。

如图2所示，为本申请实施例提供的一种补全装置200的结构示意图，该补全装置200包括信息获取模块210、特征提取模块220、补全模块230。

信息获取模块210用于获取模态信息组，该模态信息组中缺失至少一个模态信息，或者至少一个模态信息中存在缺失(为方便说明，本申请实施例将存在缺失的模态信息或缺失的模态信息称为缺失模态信息)。

特征提取模块220能够从信息获取模块210获取该模态信息组，对于模态信息组中不存在缺失的模态信息，也即完整的模态信息(为方便说明，本申请实施例将不存在缺失的模态信息或完整的模态信息称为无缺失模态信息)，特征提取模块220提取该无缺失模态信息的特征向量，每个无缺失模态信息对应一个特征向量。

补全模块230从特征提取模块220获取无缺失模态信息的特征向量，基于预设的特征向量映射关系，根据无缺失模态信息的特征向量确定缺失模态信息的目标特征向量，例如，补全模块230可以先基于预设的特征向量映射关系，根据无缺失模态信息的特征向量确定一个或多个缺失模态信息的候选特征向量，之后，根据一个或多个缺失模态信息的候选特征向量确定缺失模态信息的目标特征向量。

该特征向量映射关系指示了不同类型的模态信息的特征向量之间的映射关系，其中，不同类型的模态信息的特征向量之间的映射关系包括无缺失模态信息的特征向量与缺失模态信息的特征向量之间的映射关系，本申请实施例并不限定该特征向量映射关系的设置形式，例如该特征向量映射关系可以以机器学习模型的形式设置在补全模块230中，该机器学习模型可以分析不同类型的模态信息的特征向量之间的映射关系，学习不同类型的模态信息的特征向量之间的映射关系，能够根据输入的一个或多个模态信息的特征向量输出其他一个或多个模态信息的特征向量。

在本申请实施例中，补全装置200在进行模态信息补全时，需要先获取模态信息组中无缺失模态信息的特征向量，基于预设的特征向量映射关系，根据无缺失模态信息的特征向量确定缺失模态信息的目标特征向量。由于模态信息组通常为存在一定关联的多个模态信息，利用无缺失模态信息的特征向量确定的缺失模态信息的目标特征向量，更加接近缺失模态信息真实的特征向量，更贴近缺失模态信息的信息分布情况，基于缺失模态信息的目标特性向量和无缺失模态信息的特性向量进行多模态机器学习的准确程度也更高。

下面结合如图3，对本申请实施例提供的一种模态信息补全方法进行说明，参见图3，该方法包括：

步骤301：信息获取模块210获取模态信息组，该模态信息组中包括至少两个模态信息。

步骤302：信息获取模块210根据模态信息组的属性，确定该模态信息组中确定了第一模态信息组的部分或全部，以及该模态信息组中包括完整的第二模态信息。

信息获取模块210在获取模态信息组后，可以先根据该模块信息组的属性判断该模态信息组中是否存在缺失模态信息，若确定该模态信息组包括缺失模态信息，将该模态信息组发送至特征提取模块220，也即执行步骤302，若确定该模态信息组中不包括缺失模态信息，信息获取模块210可以将该模态信息组发送至特征提取模块220，提取模态信息组中每个模态信息的特征向量，之后可以将模态信息组中每个模态信息的特征向量发送至信息处理设备300，也可以发送至训练设备，训练设备可以利用模态信息组中每个模态信息的特征向量对多模态机器学习模型进行训练。

在本申请实施例中模态信息组的属性能够指示下列的部分或全部：该模块信息组中模态信息的数量、模态信息组中每个模态信息的数据量。其中，本申请并不限定模态信息的数据量的指示方式，例如，模态信息的数据量可以是模态信息的大小(如占用的字节数等)，又例如，对于语音类型的模态信息，该模态信息的数据量可以用时长来指示。可选的，该模态信息组的属性还可以包括该模态信息组中每个模态信息的类型。

信息获取模块210根据该模块信息组的属性判断该模态信息组中是否包括缺失模态信息和无缺失模态信息之前，需要先确定该模态信息组的属性，本申请实施例并不限定信息获取模块210确定模态信息组属性的方法。

例如，信息获取模块210在获取模态信息组时，还可以获取第一辅助信息，该第一辅助信息能够指示该模态信息组的属性，也即第一辅助信息指示下列部分或全部：该模块信息组中模态信息的数量、模态信息组中每个模态信息的数据量。可选的，该第一辅助信息还可以指示该模态信息各个模态信息的类型或名称。信息获取模块210在获取了第一辅助信息后，可以根据该第一辅助信息确定该模态信息组的属性。

又例如，信息获取模块210预先配置了第二辅助信息，该第二辅助信息可以指示信息获取模块210获取的任一模态信息组的属性(如模态信息组中模态信息的数量、模态信息组中各个模态信息的数据量)，也即信号获取模块210获取的任一模态信息组均需要满足该第二辅助信息。信息获取模块210可以根据该第二辅助信息确定该模态信息组的属性。

又例如，信息获取模块210可以比对在获取该模态信息组之前获得一个或多个模态信息组的属性与该模态信息组的属性，根据该一个或多个模态信息组的属性确定该模态信息组的属性。将该一个或多个模态信息组的属性作为该模态信息组的属性。

信息获取模块210在确定了模态信息组的属性后，可以确定获取的多模态信息组是否满足该模态信息组的属性，例如，信息获取模块210可以确定多模态信息组中模态信息的数量是否与该多模态信息组的属性指示的模态信息的数量一致，若一致，则说明该多模态信息组中包括了所有的模态信息，否则，说明多模态信息组中缺失了一个或多个模态信息的全部信息。又例如，多模态信息组中每个模态信息的数据量是否与该多模态信息组的属性指示每个模态信息的数据量一致，对于任一模态信息，若该模态信息的数据量是否与该多模态信息组的属性指示的该模态信息的数据量一致，若一致，则说明该模态信息为完整的模态信息，也即无缺失模态信息，否则，说明该模态信息缺失部分信息，为缺失模态信息。

举例来说，信息获取模块210确定的模态信息组的属性指示该模态信息组中模态信息的数量为3个，而实际获得的该模态信息组中包括的模态信息的数量为2个，信息获取模块210可以确定该模态信息组中缺失一个模态信息的全部。又如，信息获取模块210确定的模态信息组的属性指示该模态信息组中语音类型的模态信息为10分钟时长的语音数据，而实际获得的该模态信息组中语音类型的模态信息为2分钟时长的语音数据，信息获取模块210可以确定该模态信息组中语音类型的模态信息缺失了部分信息。

信息获取模块210也可以采用其他方法确定该模态信息组中存在缺失模态信息，以模态信息组为视频，该视频中包括文字、语音、图像等类型的模态信息，信息获取模块210在确定图像类型的模态信息是否存在缺失时，可以检测图像类型的模态信息中是否存在模糊的图像，若存在模糊的图像，确定图像类型的模态信息存在缺失，信息获取模块210在确定语音类型的模态信息是否存在缺失时，可以确定语音类型的模态信息的总时长是否等于视频的总时长，若不等于，确定语音类型的模态信息存在缺失，若等于，确定语音类型的模态信息不存在缺失。

在本申请实施例中以模态信息组包括缺失模态信息以及无缺失模态信息为例进行说明。缺失模态信息可以缺失部分信息，也可以是缺失全部信息。无缺失模态信息是指模态信息组中完整的模态信息。

在实际应用场景中，导致模态缺失的情况有许多，例如模态信息组在传输过程中，由于传输环境的影响，如传输线缆故障、传输网络中断、采集设备100故障等，导致模态信息组中一个或多个模态信息缺失了部分或全部信息。又例如，信息获取模块210在接收到模态信息组之前，其他设备对模态信息组进行了预处理操作，如降噪、过滤、清洗、压缩、再编码等，使得模态信息组中一个或多个模态信息缺失了部分或全部信息。以降噪为例，降噪通常对模态信息中存在的“噪音”剔除，而剔除“噪音”会导致模态信息中的一些信息被删除。

信息获取模块210在执行步骤303之前，还可以确定缺失模态信息缺失的部分是否符合预设条件，例如该缺失模态信息缺失的部分信息的数据量(如该部分信息的数据量的大小或该部分信息对应的时长)是否小于第一阈值，若该缺失模态信息缺失的部分信息的数据量(如该部分信息的数据量的大小或该部分信息对应的时长)小于第一阈值，该缺失模态信息缺失的部分信息的数据量较小，信息获取模块210可以执行步骤303，否则可以丢弃该模态信息组。

又例如，信息获取模块210可以确定该缺失模态信息缺失的部分信息占该缺失模态信息的总信息的比例是否小于第二阈值，若该缺失模态信息缺失的部分信息占该缺失模态信息的总信息的比例小于第二阈值，该缺失模态信息缺失的部分信息的数据量较小，信息获取模块210可以执行步骤303，否则可以丢弃该模态信息组。

以该模态信息组包括语音、文字、图像这三种类型的模态信息为例，若该模态信息组中缺失模态信息的类型为图像，图像类型的模态信息中缺失较少量的图像，缺失的图像数量小于图像阈值(第二阈值的一种表征形式)，信息获取模块210可以确定发送该模态信息组；图像类型的模态信息中缺失大量的图像，缺失的图像数量大于图像阈值，信息获取模块210可以丢弃该模态信息组。若该模态信息组中缺失模态信息的类型为语音，语音类型的模态信息中缺失较少量的语音数据，缺失的语音数据的时长小于时间阈值(第二阈值的另一种表征形式)，信息获取模块210可以确定发送该模态信息组；语音类型的模态信息中缺失大量的语音数据，缺失的语音数据的时长大于时间阈值，信息获取模块210可以丢弃该模态信息组。

又例如，信息获取模块210可以确定该缺失模态信息中剩余的部分信息(除去缺失的部分信息的信息即为剩余的部分信息)与缺失的部分信息的数据量比值是否大于第三阈值，若剩余的部分信息与缺失的部分信息的数据量比值大于第三阈值，该缺失模态信息缺失的部分信息的数据量较小，信息获取模块210可以执行步骤303，否则可以丢弃该模态信息组。

本申请实施例并不限定模态信息的类型，例如模态信息可以为语音、图像、文字等类型的非结构化数据，模态信息也可以为结构化数据，其中，结构化数据为能够用统一结构(如二维表格)表示的数据。

信息获取模块210也可以分析该缺失模态信息的类型，根据分析结果确定是否发送该模态信息组。

以该模态信息组包括语音、文字、图像这三种类型的模态信息为例，若该模态信息组中缺失模态信息的类型为图像，由于图像类型的模态信息中通常蕴含较为丰富的信息，较难进行补全，信息获取模块210可以丢弃该模态信息组。若该模态信息组中缺失模态信息的类型为文字，由于模态信息组中还存在语音类型的模态信息，模态信息补全难度较小，信息获取模块210可以确定发送该模态信息组。

步骤303：信息获取模块210将模态信息组发送至特征提取模块220。

步骤304：特征提取模块220获取该模态信息组后，对于模态信息组中的无缺失模态信息，特征提取模块220提取该无缺失模态信息的特征向量，每个无缺失模态信息对应一个特征向量。

特征提取模块220在执行步骤304时，特征提取模块220可以只提取一个无缺失模态信息的特征向量，也可以提取多个无缺失模态信息的特征向量。本申请实施例并不限定无缺失模态信息的特征向量的方式，凡是能够提取特征向量的方式均适用于本申请实施例。

多模态机器学习的应用场景不同，特征提取模块220提取特征向量的方式也不同，以模态信息组是视频为例，在情感识别的场景下，特征提取模块220可以基于语音的频谱特征、低水平特征(low level descriptors，LLDs)等方式确定语音类型的模态信息的特征向量。特征提取模块220可以通过对图像中的人脸区域进行卷积获得图像类型的模态信息的特征向量。又例如，在视频推荐的场景下，特征提取模块220可以基于语音的频谱和时序特征确定语音类型的模态信息的特征向量，特征提取模块220可以通过对整个图像进行卷积获得图像类型的模态信息的特征向量，特征提取模块220可以将文字类型的模态信息的词向量作为文字类型的模态信息的特征向量。

若模态信息组中的一个或多个模态信息为结构化数据，针对结构化数据，特征提取模块220可以采用独热编码(one-hot)的方式提取结构化数据的特征向量。

例如，该结构化数据为用户年龄的统计数据，特征提取模块220可以构建一个100维的向量，当用户的年龄为18时，该100维的向量的第18个值为1，其余值为0，该100维的向量即为该结构化数据的特征向量。例如，该结构化数据为用户性别的统计数据，特征提取模块220可以构建一个2维的向量，当用户性别为女时，2维的向量为10，用户性别为男时，2维的向量为01。

对于结构化数据中包括数据为连续数据，例如结构化数据为温度、压力、或长度等统计值，温度、压力、或长度的统计值可以为连续值，特征提取模块220可以先划分数据区间，每个数据区间对应一个取值范围，之后再利用one-hot的方式提取结构化数据的特征向量。例如结构化数据为温度的统计值，从温度值可以从0到100度划分为100个区间，每个区间的温度间隔为1度，当温度值为37.5度时，属于37-38的区间，在确定了温度值所属的区间后，利用one-hot的方式提取结构化数据的特征向量，特征提取模块220构建一个100维的向量，该100维的向量的第38个值为1，其余值为0，该100维的向量即为该结构化数据的特征向量。

步骤305：特征提取模块220将该无缺失模态信息的特征向量发送至补全模块230。

步骤306：补全模块230基于预设的特征向量映射关系，根据无缺失模态信息的特征向量确定缺失模态信息的候选特征向量。

补全模块230中预先设置了特征向量映射关系，该特征向量映射关系描述的不同类型的模态信息的特征向量之间的映射关系。以模态信息组包括语音、文字、图像这三种类型的模态信息为例，该特征向量映射关系包括但不限于：语音类型的模态信息的特征向量与图像类型的模态信息的特征向量之间的映射关系，文字类型的模态信息的特征向量与图像类型的模态信息的特征向量之间的映射关系，语音类型的模态信息的特征向量与文字类型的模态信息的特征向量之间的映射关系，图像类型的模态信息的特征向量与文字类型的模态信息的特征向量之间的映射关系。

本申请实施例并不限定特征向量映射关系的设置形式，例如特征向量映射关系可以为数据之间的映射关系。又例如，特征向量映射关系可以以机器学习模型的形式进行设置，该机器学习模型预先学习了不同类型的模态信息的特征向量之间的映射关系，能够根据输入的模态信息的特征向量输出其他类型的模态信息的特征向量。

下面以特征向量映射关系以机器学习模型的形式设置在补全模块230为例，对机器学习模型的训练方式进行说明，参见图4：

步骤1、准备多模态训练集，训练集中包括多个模态信息组，每个模态信息组中包括多个模态信息，每个模态信息是完整的，不存在缺失。该多模态训练集也可以用于训练多模态机器学习模型，本申请实施例并不限定多模态机器学习模型的训练方式，凡事能够利用多模态训练集实现多模态机器学习模型的训练的方式均适用于本申请实施例。

步骤2、提取多模态训练集中各个模态信息组中每个模态信息的特征向量。模态信息的特征向量的提取方式可以参见步骤302，此处不再赘述。

步骤3、基于多模态训练集中各个模态信息组中每个模态信息的特征向量，基于监督学习的方式对预设的机器学习模型进行训练，使得预设的机器学习模型可以学习到不同类型的模态信息的特征向量之间的映射关系，该预设的机器学习模型根据输入的模态信息的特征向量输出其他模态信息的特征向量。

预设的机器学习模型可以为序列到序列模型(sequence to sequence，Seq2Seq)或多模态循环翻译网络(multimodal cyclic translation network，MCTN)。

步骤4、准备多模态测试集，测试集中包括多个模态信息组，每个模态信息组中包括多个模态信息，每个模态信息是完整的，不存在缺失。

步骤5、提取多模态测试集中各个模态信息组中每个模态信息的特征向量。模态信息的特征向量的提取方式可以参见步骤302，此处不再赘述。

步骤6、基于多模态测试集中各个模态信息组中每个模态信息的特征向量，对训练好的机器学习模型进行测试。

本申请实施例并不限定训练好的机器学习模型进行测试的方式，例如，可以将测试集中的模态信息组M中模态信息A的特征向量输入至训练好的机器学习模型中，输出模态信息B的候选特征向量，比对模态信息组中模态信息B的特征向量与模态信息B的候选特征向量，若一致，或者相似度大于设定值，则可以认为模型训练成功，否则，失败，重新执行步骤1～3,继续对机器学习模型进行训练。又例如，可以将测试集中的模态信息组M的模态信息A的特征向量输入至训练好的机器学习模型中，输出模态信息B的候选特征向量，将输出的模态信息B的候选特征向量与该模态信息组M中的剩余模态信息的特征向量输入至多模态机器学习模型中进行分析，多模态机器学习模型对模态信息组M中各个模态信息的特征向量的分析结果与多模态机器学习模型对模态信息B的候选特征向量与剩余模态信息的特征向量的分析结果一致，或者相似度大于设定值，则可以认为机器学习模型训练成功，否则，失败，重新执行步骤1～3,继续对模型进行训练。

测试成功的机器学习模型可以配置在补全模块230中，根据输入的无缺失模态信息的特征向量输出缺失模态信息的候选特征向量。

由于模态信息组中可能存在多个无缺失模态信息，补全模块230在执行步骤306时，可以根据一个无缺失模态信息的特征向量获得一个缺失模态信息的候选特征向量，也可以根据多个无缺失模态信息的特征向量获得多个缺失模态信息的候选特征向量，一个无缺失模态信息的特征向量可以获得一个缺失模态信息的候选特征向量。

步骤307：补全模块230可以利用缺失模态信息的候选特征向量确定缺失模态信息的目标特征向量。

补全模块230在执行步骤306时，若生成一个缺失模态信息的候选特征向量，补全模块230可以直接将该缺失模态信息的候选特征向量作为缺失模态信息的目标特征向量，这种情况下，补全装置230可以通过步骤306直接获得该缺失模态信息的目标特征向量，补全模块230也可以对该缺失模态信息的候选特征向量进行调整，如放大或缩小等调整，将调整后的第一模态信息的候选特征向量作为缺失模态信息的目标特征向量。若生成多个缺失模态信息的候选特征向量，补全模块230可以根据多个缺失模态信息的候选特征向量确定缺失模态信息的目标特征向量。

补全模块230根据多个缺失模态信息的候选特征向量确定缺失模态信息的目标特征向量的方式本申请实施例并不限定，例如，补全模块230可以从多个缺失模态信息的候选特征向量中选择缺失模态信息的一个候选特征向量作为缺失模态信息的目标特征向量，也可以对多个缺失模态信息的候选特征向量进行加权求和(也即每个缺失模态信息的候选特征向量对应一个权重，获取缺失模态信息的目标特征向量，其中，每个缺失模态信息的候选特征向量的权重可以为经验值，也可以根据多模态机器学习模型预先确定的。

下面对根据多模态机器学习模型预先确定每个缺失模态信息的候选特征向量的权重的方式进行说明：

对每个缺失模态信息的候选特征向量的权重设置一个可变参数，利用对多个缺失模态信息的候选特征向量进行加权求和，确定缺失模态信息的目标特征向量，该目标特征向量包括该可变参数。改变可变参数的具体数值，每改变一次可变参数的具体数值，将缺失模态信息的目标特征向量和无缺失模态信息的特征向量输入至多模态机器学习模型，确定多模态机器学习模型的输出值，由此可以获得多模态机器学习模型的多个输出值，确定多模态机器学习模型的多个输出值中最接近真实值的输出值，该输出值所对应目标特征向量中的可变参数的具体数值作为缺失模态信息的候选特征向量的权重。

以模态信息组为视频，缺失模态信息为文字类型的模态信息为例，将文字类型的模态信息的一个候选特征向量的权重设定为一个参数X，参数X介于在0到1之间，通过语音类型的模态信息的特征向量确定的文字类型的模态信息的一个候选特征向量为f1，权重为X，通过图像类型的模态信息的特征向量确定的文字类型的模态信息的候选特征向量为f2，权重为1-X，通过加权求和方式获得的文字类型的模态信息的目标特征向量为X*f1+(1-X)*f2。将参数X从0变化到1每次增加0.1，每增加0.1，将文字类型的模态信息的目标特征向量、语音类型的模态信息的特征向量以及图像类型的模态信息的特征向量输入至多模态机器学习模型中，获得该多模态机器学习模型的输出值，在不同的应用场景中，该多模态机器学习模型的输出值指示的信息不同，以情感识别场景为例，该多模态机器学习模型的输出值用于指示视频中人物的情绪变化。从该多模态机器学习模型的输出值中确定最接近视频中人物真实情绪变化的输出值，该输出值对应的文字类型的模态信息的目标特征向量中参数X的取值即为文字类型的模态信息的一个候选特征向量的权重。

补全模块230可以利用缺失模态信息的候选特征向量确定缺失模态信息的目标特征向量，可以获得缺失模态信息的目标特性向量和无缺失模态信息的特性向量。补全模块230可以将缺失模态信息的目标特性向量和无缺失模态信息的特性向量发送至信息处理设备300，由信息处理设备300对缺失模态信息的目标特性向量和无缺失模态信息的特性向量进行处理。

如图5A所示，以该模态信息组为视频，其中，包括语音、文字、图像这三种类型的模态信息，语音和图像类型的模态信息为缺失模态信息，无法提取语音和图像类型的模态信息的特征向量，文本类型的模态信息为无缺失模态信息，可以提取文本类型的模态信息的特征向量。补全模块230可以基于预设的特征向量映射关系，根据文本类型的模态信息的特征向量分别生成语音和图像类型的模态信息的候选特征向量。补全模块230可以将语音和图像类型的模态信息的候选特征向量作为语音和图像类型的模态信息的目标特征向量，补全模块230可以将语音和图像类型的模态信息的目标特征向量以及文本类型的模态信息的特征向量发送给信息处理设备300，做后续处理。

如图5B所示，以该模态信息组为视频，其中，包括语音、文字、图像这三种类型的模态信息，语音和图像类型的模态信息为无缺失模态信息，可以分别提取语音和图像类型的模态信息的特征向量，文本类型的模态信息为缺失模态信息，无法提取文本类型的模态信息的特征向量。补全模块230可以基于预设的特征向量的映射关系，分别根据语音和图像类型的模态信息的特征向量生成两个文本类型的模态信息的特征向量。补全模块230可以根据两个文本类型的模态信息的候选特征向量确定文本类型的模态信息的目标特征向量，补全模块230可以将文本类型的模态信息的目标特征向量以及语音以及图像类型的模态信息的特征向量发送给信息处理设备300，做后续处理。

基于与方法实施例同一发明构思，本申请实施例还提供了一种计算机集群，用于执行上述方法实施例中所示的方法，相关特征可参见上述方法实施例，此处不再赘述，如图6所示，为本申请实施例提供的一种计算机集群，该计算机集群中包括至少一个计算设备600，每个计算设备600间通过通信网络建立通信通路。

每个计算设备600中包括总线601、处理器602、通信接口603以及存储器604，可选的，计算设备600中还可以包括显示屏605。处理器602、存储器604和通信接口603之间通过总线601通信。

其中，处理器602可以由一个或者多个通用处理器构成，例如中央处理器(centralprocessing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)、可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gatearray，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器604还可以包括非易失性存储器(non-volatilememory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)。存储器604还可以包括上述种类的组合。

存储器604中存储存可执行代码，处理器602可以读取存储器604中的该可执行代码实现功能，还可以通过通信接口603与其他计算设备进行通信，在本申请实施例中，处理器602可以实现补全装置200的一个或多个模块(如信息获取模块210、特征提取模块220、补全模块230中的一个或多个模块)的功能，这种情况下，存储器604中存储有补全装置200的一个或多个模块(如信息获取模块210、特征提取模块220的一个或多个模块)。

在本申请实施例中，多个计算设备600中的处理器602可以协调工作，执行本申请实施例提供的模态信息补全方法。

如图7所示，为本申请实施例提供的一种系统架构，该系统架构中包括客户端200和部署有变更装置的云端设备300，客户端200与云端设备300通过网络连接，该云端设备300位于云环境中，可以是部署在云数据中心中的服务器或者虚拟机，图7中，仅是以该合并装置100部署在一个云端设备300为例，作为一种可能的实施方式，该合并装置可以分布式地部署在多个云端设备300上。

如图7所示，客户端200包括总线201、处理器202、通信接口203、存储器204以及显示屏205。处理器202、存储器204和通信接口203之间通过总线201通信。其中，处理器202和存储器204的类型可以参见处理器602以及存储器604的相关说明，此处不再赘述。存储器204中存储存可执行代码，处理器202可以读取存储器204中的该可执行代码实现功能。处理器202还可以通过通信接口203与云端设备进行通信。例如处理器202可以通过显示屏205提示用户输入模态信息组，通过通信接口203将模态信息组反馈给云端设备300。

如图7所示，云端设备300包括总线301、处理器302、通信接口303以及存储器304。处理器302、存储器304和通信接口303之间通过总线301通信。其中，处理器302和存储器304的类型可以参见处理器602以及存储器604的相关说明，此处不再赘述。存储器304中存储存可执行代码，处理器302可以读取存储器304中的该可执行代码实现功能，还可以通过通信接口303与客户端200进行通信。在本申请实施例中，处理器302可以实现补全装置200的功能，这种情况下，存储器304中存储有补全装置200的信息获取模块210、特征提取模块220、补全模块230中的一个或多个模块。

处理器302通过通信接口303从客户端200接收模态信息组后，可以调用存储器304中存储的模块实现本申请实施例提供的模态信息补全方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式，可想到变化或替换，都应涵盖在本发明的保护范围之内。

24页详细技术资料下载

一种模态信息补全方法、装置及设备

相关技术

网友询问留言