• [ECCV‘22] Poseur: Direct Human Pose Regression with Transformers


    paper link: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136660071.pdf

    code link: GitHub - aim-uofa/Poseur: [ECCV 2022] The official repo for the paper "Poseur: Direct Human Pose Regression with Transformers".

    • Reference point:DETR中的Decoder收敛缓慢主要存在两个原因:1)匈牙利匹配;2)全特征图切块和queries的cross-attention。后者的一个主要改进来自Deformable DETR,提出通过Deformable Attention从特征图中稀疏采样,提高了训练收敛速度和准确率。如何初始化Deformable Attention的reference point是一个很大的问题,DETR中通过sigmoid(linear(query))求得,SLPT中提出用训练集的先验信息,而Poseur则提出基于Backbone预测的粗定位。
    • 基于uncertainty score融合多次推理结果
    • RLE Loss

    目录

    摘要

    引言

    本文贡献

    方法

    Architecture

    Training Targets and Loss Functions

    Inference

    实验

    Ablation Study

    和SOTA方法的比较


    摘要

    • 提出一种端到端可导的2D人体关键点检测算法;
    • 现有的基于Heatmap的方案,存在计算开销大等问题。本文引入Transformer,从图片直接回归关键点坐标,无需额外的中间表征;
    • 现有的基于回归的方案,存在特征不匹配等问题。本文引入Deformable Attention,逐步为关键点匹配最合适的特征;
    • 实验表明,在MS-COCO和MPII上超过现有最优的回归方法。

    引言

    1. 基于Heatmap的方案,存在多个问题:1)Heatmap需要手工设计和调整;2)取极值操作不可导;3)heatmap分辨率小于原图,存在量化误差。
    2. 基于回归的方案,整体来说不存在上诉问题,但性能不如Heatmap。造成性能较差的的原因,包括:1)为了减少最后FC层的参数量,基于回归的方法(例如:DeepPose、RLE)使用Global Average Pooling (GAP) 降低CNN特征的分辨率,但这破坏了CNN特征的空间结构;2)基于回归的方法(例如:Direct Pose、SPM)的CNN特征和预测并没有对齐,导致定位不准确;3)回归方法没有探索关键点间的结构依赖关系。

    • 本文提出Poseur,基本结构为CNN + Transformer decoder。它具有下列特点:1)不需要GAP降低特征分辨率;2)通过cross-attention机制,消除CNN特征和预测不匹配的问题;3)通过self-attention机制,学习关键点间的结构依赖关系。如下图,Poseur具有下列优点:1)在多个backbones上超过heatmap-based方法;2)在低分辨率backbones上效果仍然不错。

    本文贡献

    • 提出transformer-based框架,该框架计算开销小,同时在低分辨率特征下表现不错,例如:基于(ResNet-50,COCO),相较于SimpleBaseline,Poseur减少49% FLOPs,提高了5.0 AP。
    • 基于(ResNet-50,COCO),相较于RLE,Poseur提高了4.9AP;基于(HRNet-W48,COCO),相较于UDP-Pose,Poseur提高了1.0 AP;
    • 无需裁剪操作,Poseur可以很快适配在端到端pipeline上。基于(HRNet-W48,COCO),相较于PointSet,Poseur提高了3.8 AP。

    方法

    Architecture

    • Backbone:基于CNN(ResNet、HRNet)或Transformer(HRFormer)的Backbone。Backbone有两个作用:1)提取多层特征,是query decoder中的输入之一;2)通过GAP + FC层回归粗结果,粗结果基于RLE监督。
    • Keypoint endoer:用于初始化query decoder的query Q。Q = Q_c + μ_f,其中Q_c是可学习变量,u_f是经过sine-cosine位置编码的初始化坐标。初始化坐标可能是:1)Backbone预测的粗结果;2)标准化的随机噪声,后者是本文提出一种query增强方法,用于改善模型鲁棒性。
    • Query decoder:与Transfomer的decoder类似,包括N层,每层包括self-attention,cross-attention和feed-forward networks(FFNs)。DETR中self-attention和cross-attention都是multi-head self-attention,Poseur中将cross-attention实现为efficient multi-scale deformable attention (EMSDA)。Deformable DETR中的MSDA,考虑Q个query和对应的reference point,通过query预测K个采样点的偏移量和权重系数,从多层特征中采样特征,并输出加权和。相较于Deformable DETR中的MSDA,本文实现的EMSDA仅在采样特征后添加线性层,降低计算开销。
    • 总结来说,Poseur通过Query decoder中的self-attention学习关键点间的依赖关系,通过基于deformable attention的cross-attention学习每个关键点对应的特征,解决特征不匹配的问题。

    Training Targets and Loss Functions

    • 损失函数为RLE,包括Backbone的粗预测和query decoder的细粒度预测。

    Inference

    Prediction uncertainty estimation

     

    实验

    • Datasets:1)COCO2017 Keypoint Detection,250K person,17 keypoints;2)MPII
    • Model settings:backbone ResNet-50 (pre-trained on ImageNet);input image 256 x 192;embedding size = 256;3 decoder layers。
    • Training:batch size = 256,325 epoch

    Ablation Study

    • Initialization of keypoint queries:相较于DETR中,refrence points = Sigmoid(Linear(object queries)),本文基于Backbone的粗预测,有0.6 AP的提升。
    • Noisy reference points sampling strategy:0.6 AP的提升。
    • Uncertainy estimation:不用RLE:70.0 AP;用RLE:73.6;predictions with re-score:74.7。
    • Varying decoder layers:增加decoder层数,会带来一定的提升。
    • Varying the input size:对小分辨率有效。

    和SOTA方法的比较

     

  • 相关阅读:
    【win12】服务器windows server2012因为DNS配置失败而导致无法上网的解决办法【手动配置DNS试试->取消自动获取】
    基于Java毕业设计在线商城系统源码+系统+mysql+lw文档+部署软件
    Intel汇编-变量初始赋值
    【python入门篇】条件表达式、循环(5)
    【4 进程与线程】
    请给系统加个【消息中心】功能,因为真的很简单
    记一次 .NET 某新能源材料检测系统 崩溃分析
    RFID服装工位管理提高生产管理效率
    python科学计算环境搭建
    C语言-流程控制
  • 原文地址:https://blog.csdn.net/qq_40731332/article/details/128135798