[ECCV‘22] Poseur: Direct Human Pose Regression with Transformers

[ECCV‘22] Poseur: Direct Human Pose Regression with Transformers
paper link: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136660071.pdf

code link: GitHub - aim-uofa/Poseur: [ECCV 2022] The official repo for the paper "Poseur: Direct Human Pose Regression with Transformers".
- Reference point：DETR中的Decoder收敛缓慢主要存在两个原因：1）匈牙利匹配；2）全特征图切块和queries的cross-attention。后者的一个主要改进来自Deformable DETR，提出通过Deformable Attention从特征图中稀疏采样，提高了训练收敛速度和准确率。如何初始化Deformable Attention的reference point是一个很大的问题，DETR中通过sigmoid(linear(query))求得，SLPT中提出用训练集的先验信息，而Poseur则提出基于Backbone预测的粗定位。
- 基于uncertainty score融合多次推理结果
- RLE Loss
目录

摘要

引言

本文贡献

方法

Architecture

Training Targets and Loss Functions

Inference

实验

Ablation Study

和SOTA方法的比较

摘要
- 提出一种端到端可导的2D人体关键点检测算法；
- 现有的基于Heatmap的方案，存在计算开销大等问题。本文引入Transformer，从图片直接回归关键点坐标，无需额外的中间表征；
- 现有的基于回归的方案，存在特征不匹配等问题。本文引入Deformable Attention，逐步为关键点匹配最合适的特征；
- 实验表明，在MS-COCO和MPII上超过现有最优的回归方法。
引言
1. 基于Heatmap的方案，存在多个问题：1）Heatmap需要手工设计和调整；2）取极值操作不可导；3）heatmap分辨率小于原图，存在量化误差。
2. 基于回归的方案，整体来说不存在上诉问题，但性能不如Heatmap。造成性能较差的的原因，包括：1）为了减少最后FC层的参数量，基于回归的方法（例如：DeepPose、RLE）使用Global Average Pooling (GAP) 降低CNN特征的分辨率，但这破坏了CNN特征的空间结构；2）基于回归的方法（例如：Direct Pose、SPM）的CNN特征和预测并没有对齐，导致定位不准确；3）回归方法没有探索关键点间的结构依赖关系。
- 本文提出Poseur，基本结构为CNN + Transformer decoder。它具有下列特点：1）不需要GAP降低特征分辨率；2）通过cross-attention机制，消除CNN特征和预测不匹配的问题；3）通过self-attention机制，学习关键点间的结构依赖关系。如下图，Poseur具有下列优点：1）在多个backbones上超过heatmap-based方法；2）在低分辨率backbones上效果仍然不错。
本文贡献
- 提出transformer-based框架，该框架计算开销小，同时在低分辨率特征下表现不错，例如：基于（ResNet-50，COCO），相较于SimpleBaseline，Poseur减少49% FLOPs，提高了5.0 AP。
- 基于（ResNet-50，COCO），相较于RLE，Poseur提高了4.9AP；基于（HRNet-W48，COCO），相较于UDP-Pose，Poseur提高了1.0 AP；
- 无需裁剪操作，Poseur可以很快适配在端到端pipeline上。基于（HRNet-W48，COCO），相较于PointSet，Poseur提高了3.8 AP。
方法

Architecture
- Backbone：基于CNN（ResNet、HRNet）或Transformer（HRFormer）的Backbone。Backbone有两个作用：1）提取多层特征，是query decoder中的输入之一；2）通过GAP + FC层回归粗结果，粗结果基于RLE监督。
- Keypoint endoer：用于初始化query decoder的query Q。Q = Q_c + μ_f，其中Q_c是可学习变量，u_f是经过sine-cosine位置编码的初始化坐标。初始化坐标可能是：1）Backbone预测的粗结果；2）标准化的随机噪声，后者是本文提出一种query增强方法，用于改善模型鲁棒性。
- Query decoder：与Transfomer的decoder类似，包括N层，每层包括self-attention，cross-attention和feed-forward networks（FFNs）。DETR中self-attention和cross-attention都是multi-head self-attention，Poseur中将cross-attention实现为efficient multi-scale deformable attention (EMSDA)。Deformable DETR中的MSDA，考虑Q个query和对应的reference point，通过query预测K个采样点的偏移量和权重系数，从多层特征中采样特征，并输出加权和。相较于Deformable DETR中的MSDA，本文实现的EMSDA仅在采样特征后添加线性层，降低计算开销。
- 总结来说，Poseur通过Query decoder中的self-attention学习关键点间的依赖关系，通过基于deformable attention的cross-attention学习每个关键点对应的特征，解决特征不匹配的问题。
Training Targets and Loss Functions
- 损失函数为RLE，包括Backbone的粗预测和query decoder的细粒度预测。
Inference

Prediction uncertainty estimation
- 推理阶段包含两次前向，第一次为正常前向，第二次会将图片反转，通过uncertainty score融合两次推理结果。
- 参考代码：https://github.com/aim-uofa/Poseur/blob/9358ed54dc597f9c46b114e8f57b018b5af55ddd/mmpose/models/detectors/poseur.py#L231
- 考虑两个Poseur model，增加keypoint score为模型带来了4.7 AP的提升，这减少了大量false positives。考虑到通过normalization flow model计算uncertainty比较耗时，本文提出假设预测分布为拉普拉斯分布，整理后uncertainty可通过下式计算，其中a = 0.2为超参数。
实验
- Datasets：1）COCO2017 Keypoint Detection，250K person，17 keypoints；2）MPII
- Model settings：backbone ResNet-50 (pre-trained on ImageNet)；input image 256 x 192；embedding size = 256；3 decoder layers。
- Training：batch size = 256，325 epoch
Ablation Study
- Initialization of keypoint queries：相较于DETR中，refrence points = Sigmoid(Linear(object queries))，本文基于Backbone的粗预测，有0.6 AP的提升。
- Noisy reference points sampling strategy：0.6 AP的提升。
- Uncertainy estimation：不用RLE：70.0 AP；用RLE：73.6；predictions with re-score：74.7。
- Varying decoder layers：增加decoder层数，会带来一定的提升。
- Varying the input size：对小分辨率有效。
和SOTA方法的比较
相关阅读:
【win12】服务器windows server2012因为DNS配置失败而导致无法上网的解决办法【手动配置DNS试试-＞取消自动获取】
基于Java毕业设计在线商城系统源码+系统+mysql+lw文档+部署软件
 Intel汇编-变量初始赋值
 【python入门篇】条件表达式、循环（5）
【4 进程与线程】
请给系统加个【消息中心】功能，因为真的很简单
 记一次 .NET 某新能源材料检测系统崩溃分析
 RFID服装工位管理提高生产管理效率
 python科学计算环境搭建
 C语言-流程控制
原文地址：https://blog.csdn.net/qq_40731332/article/details/128135798

摘要

引言

本文贡献

方法

Architecture

Training Targets and Loss Functions

Inference

实验

Ablation Study

和SOTA方法的比较