METER

CVPR 2022,微软发表的文章An Empirical Study of Training End-to-End Vision and Language Transformers围绕Vision-and-Language Pre-training (VLP),提出了METER 模型(Multimodal End-to-end TransformER)。本文偏向综述性质,对现有的VLP模型的框架及预训练任务进行了总结对比,并在大量实验结果的基础上给出了端到端的基于transformer的VLP模型框架:METER。

(本篇博客也对论文中提到的相关VLP模型进行简单介绍并附上论文链接)

Prompt(一): 基础知识

prompt是NLP领域最新兴起的预训练范式,其主要方法是在预训练的过程中结合输入文本给出与下游任务相关的提示,让模型在训练过程中进行预测。本篇博客主要介绍NLP领域语言模型的四个发展阶段、prompt基本形式的数学定义以及相关的背景知识。

SENet

Sequeeze-and-Excitation Networks, 简称SENet.获得了ImageNet最后一届竞赛图像分类任务的冠军。SENet通过Sequeeze和Excitation两个操作,让网络关注到channel之间的关系,希望模型可以自动学习到不同channel的重要特征。

DenseNet

Dense Convolutional Network(DenseNet)是CVPR2017的最佳论文。与ResNet的思想类似,DenseNet建立了前面层与后面层之间的dense connection. 此外,DenseNet通过特征在通道上的链接来实现特征重用(feature reuse)。这些改进点让DenseNet在参数量和计算量更少的情况下实现了比ResNet更出色的效果。