一种实现灾后图像视觉问答的方法

文档序号：1816136 发布日期：2021-11-09 浏览：25次 >En<

阅读说明：本技术 一种实现灾后图像视觉问答的方法 (Method for realizing post-disaster image visual question answering ) 是由王雯哲高岩高明王建华于 2021-07-29 设计创作，主要内容包括：本发明公开了一种实现灾后图像视觉问答的方法,属于灾后评估分析技术领域。本发明的实现灾后图像视觉问答的方法使用无人飞行器收集的图像和视频,对图像中的对象进行分类,设定问题的类型,通过视觉算法和自然语言算法对图像进行特征提取及问题的语义表示,将特征组合后将任务制定为一个分类任务预测问题答案。该发明的实现灾后图像视觉问答的方法可以加快灾后的恢复过程,通过对灾后情况的现场了解,可以更快的制定灾后的恢复方案,物资调动等方案,具有很好的推广应用价值。(The invention discloses a method for realizing post-disaster image visual question answering, and belongs to the technical field of post-disaster evaluation and analysis. The method for realizing post-disaster image visual question answering uses images and videos collected by an unmanned aerial vehicle to classify objects in the images, sets the types of problems, extracts the features of the images and represents the semantics of the problems through a visual algorithm and a natural language algorithm, and makes tasks into classified task prediction problem answers after combining the features. The method for realizing post-disaster image visual question answering can accelerate the post-disaster recovery process, can more quickly establish post-disaster recovery schemes, material transfer schemes and the like by knowing the situation on site after the disaster, and has good popularization and application values.)

一种实现灾后图像视觉问答的方法

技术领域

本发明涉及灾后评估分析技术领域，具体提供一种实现灾后图像视觉问答的方法。

背景技术

视觉问答是一个多模态的问题，其目的是根据特定的图像找到正确的答案。视觉问答系统需要对自然语言问题和可视图像进行建模，视觉问答模型需要从图像中识别到相关的对象，并且从识别的多个对象中找到对象间的关系。

通过这种高层次的场景理解可以推进对灾后场景的评估和决策，比如：道路的状况如何，有多少建筑受损等。这些重要的信息可以推进灾后恢复决策或挽救许多的生命。另外，视觉问答系统提供的信息可以对有限的资源进行最优的管理和分配。

目前大多数视觉问答系统的成功都是基于特定的任务数据集，虽然现在有非常多的灾后评估目的的数据集，但是这些数据集通常都是卫星图像和社交媒体图像。卫星图像通常是从高海拔角度进行拍摄的，所以分辨率非常低，从而无法进行准确的灾害情况评估分析。通过采用的数据集为无人机采集的高分辨率的图像，相关的主要任务是进行图像分类和图像语义分割。由于道路受损、洪水泛滥等诸多不利条件，难以进入受灾地区，数据收集既费力又危险，因此无人机等自动化系统与视觉问答模块集成，训练灾害特定数据集，可用于损害评估目的。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种可以加快灾后的恢复过程，通过对灾后情况的现场了解，可以更快的制定灾后的恢复方案，物资调动等方案的实现灾后图像视觉问答的方法。

为实现上述目的，本发明提供了如下技术方案：

一种实现灾后图像视觉问答的方法，该方法使用无人飞行器收集的图像和视频，对图像中的对象进行分类，设定问题的类型，通过视觉算法和自然语言算法对图像进行特征提取及问题的语义表示，将特征组合后将任务制定为一个分类任务预测问题答案。

视觉问答系统集成无人飞行器采集的图像在重大灾难的灾后损伤评估具有很大的潜力，可以向受灾地区提供实时的数据评估和分析。视觉问答系统的主要问答范围是对现场清空提供和查询相关的答案。可以加快灾后的恢复过程，通过对灾后情况的现场了解，可以更快的制定灾后的恢复方案，物资调动等方案。

作为优选，数据集中图像包括碎片和建筑物，其中建筑物包括住宅和非住宅的结构，对不同属性的对象类型在生成问题和答案时，参照不同属性。

模型训练使用的数据集是飓风过后使用小型无人飞行器收集的图像和视频，所有图像的分辨率很高。首先对图像中的对象进行分类，设定问题的类型，再通过视觉算法和自然语言算法对图像进行特征提取，以及问题的语义表示，模型将两种特征进行组合后将任务制定为一个分类任务(给定的答案集)预测问题答案。数据集中的大多数图像包括碎片和建筑物，这些建筑物包括住宅和非住宅的结构，对于不同属性的对象类型在生成问题和答案的时候，也有参照这些属性。

作为优选，生成的问题包括简单计数类、复杂计数类和是否类。共有3197张图片可用，每张图片都与所有3种类型的问题相关联。

作为优选，简单计数类问题询问对象的存在数量。

作为优选，复杂计数类问题用于计算对象特定属性的存在。

作为优选，是否类问题用于检查对象的特定属性是否存在。

作为优选，图像的特征提取使用VGGNet进行表示，问题的语义使用LSTM模型进行表示，使用MFB模型对图像和问题的特征进行组合，并使用Softmax层得到预测的答案。

作为优选，使用VGG16网络提取图像的特征，提取得到1024维的图像特征向量，语义问题特征提取使用两层的LSTM模型得到1024维问题特征向量。

作为优选，使用MFB模型对特征向量和语义问题特征向量进行细粒度的组合，MFB模块对特征向量进行扩展和挤压。图像和问题特征向量在扩展过程中逐点相乘，然后是一个dropout层；在压缩步骤中，主要是进行池化和归一化。

作为优选，经MFB模块的特征组合，使用全连接层和softmax层，对给定的问题和图像，模型通过将问题定制为分类任务，对给定的答案集来预测问题的答案。

即对于图像的特征提取使用VGG16网络，提取得到1024维的图像特征向量，语义问题特征提取使用两层的LSTM模型同样得到1024维问题特征向量。使用MFB模块将图像特征向量和语义问题特征向量进行细粒度的组合。MFB模块对特征向量进行扩展和挤压。图像和问题特征向量在扩展过程中逐点相乘，然后是一个dropout层；在压缩步骤中，主要是进行池化和归一化。经过MFB模块的特征组合，使用全连接层和softmax层，对于给定的问题和一个图像，模型通过将问题定制为分类任务，对于给定的答案集来预测问题的答案。

与现有技术相比，本发明的实现灾后图像视觉问答的方法具有以下突出的有益效果：目前的灾后图像数据集是分辨率很低的卫星图像，无法对图像进行高准确率的分析，本发明所述实现灾后图像视觉问答的方法根据提出的问题对图像进行分析预测出答案，比如“图中有多少房屋受损？”、“图中道路受损情况”等。通过视觉问答系统可以减少人力对图像的判断，加快灾后恢复的计划和决策，通过对灾后情况的现场了解，可以更快的制定灾后的恢复方案，物资调动等方案，具有良好的推广应用价值。

附图说明

图1是本发明所述实现灾后图像视觉问答的方法的流程图。

具体实施方式

下面将结合附图和实施例，对本发明的实现灾后图像视觉问答的方法作进一步详细说明。

实施例

如图1所示，本发明的实现灾后图像视觉问答的方法，使用无人飞行器收集的图像和视频，对图像中的对象进行分类，设定问题的类型，通过视觉算法和自然语言算法对图像进行特征提取及问题的语义表示，将特征组合后将任务制定为一个分类任务预测问题答案。

视觉问答系统集成无人飞行器采集的图像在重大灾难的灾后损伤评估具有很大的潜力，可以向受灾地区提供实时的数据评估和分析。视觉问答系统的主要问答范围是对现场清空提供和查询相关的答案。可以加快灾后的恢复过程，通过对灾后情况的现场了解，可以更快的制定灾后的恢复方案，物资调动等方案。数据集中图像包括碎片和建筑物，其中建筑物包括住宅和非住宅的结构，对不同属性的对象类型在生成问题和答案时，参照不同属性。

生成的问题包括简单计数类、复杂计数类和是否类。共有3197张图片可用，每张图片都与所有3种类型的问题相关联。简单计数类问题询问对象的存在数量。复杂计数类问题用于计算对象特定属性的存在。是否类问题用于检查对象的特定属性是否存在。

对于图像中的对象类型和属性的划分如下表1所示：

表1：

图像的特征提取使用VGGNet进行表示，问题的语义使用LSTM模型进行表示，使用MFB模型对图像和问题的特征进行组合，并使用Softmax层得到预测的答案。

使用VGG16网络提取图像的特征，提取得到1024维的图像特征向量，语义问题特征提取使用两层的LSTM模型得到1024维问题特征向量。

使用MFB模型对特征向量和语义问题特征向量进行细粒度的组合，MFB模块对特征向量进行扩展和挤压。图像和问题特征向量在扩展过程中逐点相乘，然后是一个dropout层；在压缩步骤中，主要是进行池化和归一化。

经MFB模块的特征组合，使用全连接层和softmax层，对给定的问题和图像，模型通过将问题定制为分类任务，对给定的答案集来预测问题的答案。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

6页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：菜谱的推荐方法及装置、智能烹饪机器人、可读存储介质

一种实现灾后图像视觉问答的方法

相关技术

网友询问留言