微软亚研提出新型的通用视觉

  • 时间:
  • 浏览:73
  • 来源:大发6合娱乐平台-大发6合下注平台_大发6合注册平台

9月3日消息,来自中科大、微软亚研院的研究者们提出了五种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同去中有 视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。

为了让 VL-BERT 模型利用更为通用的特性表示,作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练,实验证明此预训练过程还要显著提高下游的视觉-语言任务的效果,中有 视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当前单模型的最好效果。

适用于下游任务的通用特性表示预训练是深层网络成功的标志之一。在计算机视觉领域,深层网络在 ImageNet 数据集进行图像分类的预训练过程,被发现可广泛提高多种图像识别任务的效果。在自然语言避免领域中,Transformer 模型在大规模语料库中使用语言模型进行预训练的过程,也被证明可广泛提高多种自然语言避免任务的效果。

但对于计算机视觉和自然语言避免领域交叉的任务,同类图像标题生成、视觉问答、视觉常识推理等,缺少五种 预训练的通用多模态特性表示。

一般来说,事先的视觉-语言模型分别使用计算机视觉或自然语言避免领域中的预训练模型进行初始化,但机会目标任务数据量不足,模型容易过拟合从而损失性能。假若对于不同的视觉-语言任务,其网络架构一般是经过特殊设计的,由此没法通过视觉-语言联合预训练的过程帮助下游任务。

由此,在本文中,作者提出了五种可广泛应用于视觉-语言任务的预训练通用特性表示,称为 Visual-LinguisitcBERT,简称 VL-BERT,其架构如下图所示:

VL-BERT 的主干网络使用 TransformerAttention 模块,并将视觉与语言嵌入特性作为输入,其中输入的每个元素是来自一段话中的单词、或图像中的感兴趣区域(Region of Interests,简称 RoIs)。在模型训练的过程中,每个元素均还要根据其内容、位置、类别等信息自适应地聚合来自所有或多或少元素的信息。在堆叠多层 TransformerAttention 模块后,其特性表示即具有更为丰厚的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示,作者在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集,Conceptual Captions,其中中有 了离米 330 万个图像标题对。

VL-BERT 的预训练主要采用另另另另一个任务:a) 屏蔽语言模型(Masked Language Modeling),即随机屏蔽掉一段话中的或多或少词,并预测当前位置的词是那些;b) 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的或多或少 RoIs,并预测此空间位置对应 RoI 的所属类别;c) 图像标题关联预测(Sentence-Image Relationship Prediction),即预测图像与标题是是否属于同一对。

在预训练后来始于后,使用微调来进行下游任务的训练。本文中主要在另另另另一个视觉-语言下游任务中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引用表达式理解(ReferringExpressionComprehension),下面将分别介绍。

视觉常识推理任务即给定图片与相关疑问,机器不仅还要回答疑问,还还要提供理由来证明答案的正确性。此任务(Q->AR)被分解为另另另另一个子任务,即视觉问答(Q->A,给定图片与疑问,输出正确答案),以及视觉推理(QA->R,给定图片、疑问与答案,输出正确的理由)。

下面以视觉问答子任务为例,此任务的输入为疑问、答案与图像的 RoIs,并预测此答案是是否为正确答案。除此之外,作者发现微调时增加与预训练同类的 RoI 分类损失也会进一步提升性能,如下:

视觉问答任务即给定图片,回答与图片输入相关的疑问。由此模型的输入即为疑问与图像,基本元素为单词或 RoI,最终对答案进行预测,如下:

引用表达式理解任务是使用给定的引用表达式来定位图像中的相关对象,由此输入为查询(引用表达式)与图片中的 RoIs,并预测哪个 RoI 为查询输入的引用,如下:

进入“机器视觉”首页,浏览更多精彩内容 >>