CVPR 2022,微软发表的文章An Empirical Study of Training End-to-End Vision and Language Transformers围绕Vision-and-Language Pre-training (VLP),提出了METER 模型(Multimodal End-to-end TransformER)。本文偏向综述性质,对现有的VLP模型的框架及预训练任务进行了总结对比,并在大量实验结果的基础上给出了端到端的基于transformer的VLP模型框架:METER。
(本篇博客也对论文中提到的相关VLP模型进行简单介绍并附上论文链接)