Vision Representation From Textual

大多数的视觉特征表示都是通过有有监督的有标图像预训练得到的,最近有一种新方法是利用图像的caption信息对视觉特征进行监督学习。

Virtex

paper | code

Motivation

  1. 最近的文章很多都是在探索无标签自监督的对比学习方法对视觉表征进行提升,作者致力于用更少的图像学习更好的视觉表征。
  2. 作者利用语义密集的caption对图像进行监督,可以达到很好的效果,自监督的对比学习是用语义稀疏的信号使经过不同变换的图像具有相似的特征。

img

Contribution

验证了自然语言能够对可迁移的视觉图像特征学习提供很好的监督,能够在用更少的图片的情况下学习到更好的表征能力

Method

由visual backbone和textual head组成

在预训练过程中,language modeling部分任务是image caption,论文参考BERT的设计,并且考虑到计算量限制,没有采用MLM预训练任务。visual backbone部分,作者采用的是标准的REsNet-50网络,使用的特征为经过最后一层conv的7x7x2048维的特征,经过一层linear projection输入到textual head中进行caption预测输出。Textual head部分采用两个transformers,一个正向transformers,一个反向transformers。

img

Experiment

img

LocTex:Learning Data-Efficient Visual Representations from Localized Textual Supervision

paper

Motivation

  1. 核心思想还是利用caption和synchronized mouse-over gestures对图像进行监督训练得到更好的图像表征。
  2. 利用caption获取更多的图像语义信息,利用mouse-over gesture获取更准确的位置信息,可以很好的迁移到分割/检测等下游任务中。

img

Contribution

可以简化图像的标签过程,并且利用mouse-trace可以更好地对目标进行定位,减小预训练特征和下游任务中的gap,并且训练消耗的资源也不多。

Method

img

模型主体分为两部分,一部分是利用对比学习对visual backbone和textual backbone进行学习(类似图文匹配),另一部分利用mouse-trace对对象的位置进行粗略的学习。