AdaMixer--真正的降维打击！！

文章目录

一：2D检测模型的一些问题
二：AdaMixer核心创新点
三：具体实现细节
四：总结

一：2D检测模型的一些问题

检测模型可以分为三大类Dense Model， Dense-To-Sparse Model和Sparse Model。

Dense Model的代表作就是YOLO了，对应的缺点也很明显，anchor的超参数设定、训练样本的选择、预测结果的postprocess操作等。传统的DETR虽然作者说是Sparse，但实际上查询大量的key还是更趋向Dense，收敛慢，小物体检测精度差，不过鉴于trans在检测领域上的开山之作，也是能理解的。

Dense-To-Sparse Model代表作就是faster rcnn等，缺点是速度慢、收敛慢，优点就是精度高，毕竟是two-stage。

Sparse Model的代表作就是Sparse RCNN、Deformable DETR了，对于Sparse RCNN而言anchor框的大小和feature是自己学习得到的，并且通过interactive head进行融合，效果也是很不错的。Deformable DETR通过设定每个query在多个feature map上采样m个key，来大大缩短收敛时间，但是依然有如下几个缺点：

采样点的选取还是不太adaptive，限制在了每个feature map的二维平面上，而且每个平面上固定选取了m个点。固定数量的query在decoder时处理不同尺度、不同物体数量的图片而言，采样点的适应性显然不行。
对采样点特征的content decoderng处理过于简单，只是一个简单的Linear transformation。没有给queries提供充分的semantic adaptability。

二：AdaMixer核心创新点

使用了adaptive 3D feature sampler，升维度解决了采样点的适应性问题
使用了adaptive channel mixing和adaptive space mixing，即ACM和ASM，从两个维度充分利用了采样点特征

三：具体实现细节

adaptive 3D feature sampler

在这里插入图片描述

首先将C2～C5的feature maps投射到3D feature space上，利用如下公式计算每层的 $z_j$ （其中的 $S_{base}$ =4，也就是C2的缩放倍数），同时将每个特征图的长宽rescale成 $W/S_{base}$ 和 $H/S_{base}$ ，对齐 $x -$ 和 $y - a x i s$

在这里插入图片描述

构造好了3D特征空间，queries也仿照了conditional Detr中的解耦思想，q_content和posotional vector。重点来了，posotional vector不是(x, y, w, h)，而是利用下面公式转化为了(x, y, z, r)，分别代表中心坐标，bounding box面积的log，bounding box的长宽比的log。这样就将posotional vector转换到了3D坐标系中，方便后面的采样：

在这里插入图片描述

根据q_content，生成x, y, z的offsets，加到原先的坐标上作为最终采样点坐标，利用公式如下：

在这里插入图片描述

现在每一个query都在3D feature space中找到了 $P_{in}$ 个采样点坐标了，那么就差特征融合了。根据(x, y)做线性插值，可以在四个特征面上各得到一个特征向量，最后利用z坐标计算采样点离每个特征面的距离远近，softmax后作为每个特征向量的权重，最后相加作为采样点的特征。利用的公式如下：

在这里插入图片描述

每个query得到了 $P_{in}$ 个采样点特征，难免有点少。作者利用了grouping mechanism，类似multi-heads，最终得到的采样结果是(num_queries, num_groups, $P_{in}$ , feature_dim/num_groups)

ACSM

在这里插入图片描述

注意！！！ACSM输出的结果最后和q_content相加了，没有所谓的cross-attention，其实和Deformable DETR有异曲同工之处。Deformable DETR中的weight是Linear直接生成的，加给各个采样特征，太过随意了。而ACSM则更像是一种更细致的weight加权过程。

总体框图

在这里插入图片描述最后，有一个细节，黄色框MHSA的自注意力和往常不一样，考虑到q_content中不含position信息，所以进行了位置信息的添加，然后才进行自注意力。当然，其中还有不少其他细节，这里我就不一一讲述了，可看下图论文原话：

在这里插入图片描述

四：总结

在我看来，这是DETR研究收敛分支——采样方法中，开天辟地的一篇文章，可以说未来会取代Deformable DETR的地位。xyzr的bbox表示方法，让我拍案叫绝，真心敬佩。升维后采样，实现了真正意义上的adaptive sampling！！！！

至此我对AdaMixer模型中全部的流程与细节，进行了深度讲解，希望对大家有所帮助，有不懂的地方或者建议，欢迎大家在下方留言评论。

我是努力在CV泥潭中摸爬滚打的江南咸鱼，我们一起努力，不留遗憾！

相关阅读:
解锁新技能《创建skywalking-ui9.1.0 页面空白问题解决》
防火墙综合实验
Qt 下拉复选框（MultiSelectComboBox）(一) 实现下拉框多选，搜索下拉框内容
Linux学习-65-分析系统性能(sar命令)
Linux： Swap与swappiness
Django调用SECRET_KEY对数据进行加密
SimplifyRODataLoads - 优化阅读笔记
MindSpore报错显示parameter没有zero属性
Day46-50：统计图表项目总结
Django之模型层

原文地址：https://blog.csdn.net/weixin_43702653/article/details/126742922