
【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
论文地址:https://arxiv.org/abs/2207.05557
代码地址:https://github.com/hunto/LightViT
作者认为,在ViT中混合 convolution,是一种信息聚合的方式,convolution 建立了所 token 之间的明确联系。基于这一点,作者等人提出“如果这种明确的聚合能以更均匀的方式发挥作用,那么它们对于轻量级的ViTs来说实际上是不必要的”。

因此,作者提出纯 attention 的轻量级网络,架构如上图所示,可以看出主要改进在于 attention 和 FFN 部分:

其中,T数量远小于窗口大小7x7(LightVIT-T中T设置为8),可以大大节省 global aggregation 和 broadcast 的计算量
作者提出了基于二维注意力的FFN,包括通道注意力和空间注意力两个分支,具体细节如下图所示,这里不再多说。
该方法在多个任务上都取得了非常好的性能,这里重点介绍消融实验。如下表所示, global attn显著提升了性能,而计算量只有轻微增加。FFN中的空间注意力可以捕获空间相关性,并且选择性的关注重要的token,更好的挖掘图像结构信息。
