码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • CVPR2022:使用完全交叉Transformer的小样本目标检测


    关注并星标

    从此不迷路

    计算机视觉研究院

    a6803964639bb84dcc1789743275cda1.gif

    7a856cadb095008e089eec7b488045bc.gif

    公众号ID|ComputerVisionGzq

    学习群|扫码在主页获取加入方式

    a664a32df79cb0785bec261cd34bb865.png

    论文地址:

    https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf

    计算机视觉研究院专栏

    作者:Edison_G

    小样本目标检测 (FSOD) 旨在使用很少的训练示例检测新目标,最近在社区中引起了极大的研究兴趣。

    01

    概述

    小样本目标检测 (FSOD) 旨在使用很少的训练示例检测新目标,最近在社区中引起了极大的研究兴趣。已经证明基于度量学习的方法使用基于双分支的孪生网络对这项任务有效,并计算图像区域和少样本示例之间的相似性以进行检测。

    然而,在之前的工作中,两个分支之间的交互只限于检测头,而剩下的数百层用于单独的特征提取。受最近关于视觉转换器和视觉语言转换器的工作的启发,研究者提出了一种新颖的基于完全交叉转换器(Fully Cross-Transformer)的FSOD模型 (FCT),方法是将交叉转换器整合到特征主干和检测头中。提出了非对称批处理交叉注意来聚合来自具有不同批处理大小的两个分支的关键信息。新模型可以通过引入多级交互来改善两个分支之间的少样本相似性学习。PASCAL VOC和MSCOCO FSOD基准的综合实验证明了我们模型的有效性。

    02

    背景

    以往小样本检测方法大致可以分为俩类:single-branch方法和two-branch方法;前者通常是基于Faster RCNN进行finetuned,需构建multi-class classifier;但该方法针对shot比较少例如1-shot时,较为容易出现过拟合情况;而后者通常时构建siamese网络,分别同时提取query特征和support特征,然后基于metric learning方法比如feature fusion,feature alignment,GCN或者non-local attention来计算俩分支的相似性,由于在Novel类别上无需构建multi-class classifier,所以泛化性更好;俩类方法大致差异如下图所示:

    db5c904a962b8a1cdf978e7e1d6caaab.png

    03

    新框架

    Task Definition

    在小样本目标检测(FSOD)中,有两组类C=Cbase∪Cnovel和Cbase∩Cnovel=∅,其中基类Cbase每个类都有大量训练数据,而新类Cnovel(也称为支持类)只有每个类的训练示例很少(也称为支持图像)。对于K-shot(例如,K=1,5,10)目标检测,研究者为每个新类别c∈Cnovel准确地使用K个边界框注释作为训练数据。FSOD的目标是利用数据丰富的基类来协助检测少样本的新类。

    Overview of Our Proposed Model (FCT)

    研究者认为以往的two-branch方法只关注了detection head部分的特征交互,忽略了特征提取部分;于是这篇论文的motivation就出来了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小样本检测方法,在每个阶段都进行特征交互。如下图所示:

    733eb053c843071cd4a27d5c90431882.png

    The Cross-Transformer Feature Backbone

    在cross-transformer中计算Q-K-V attention时为了减少计算量,研究者采用了PVTv2的方式。上面大致介绍了query和support特征提取,在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具体做法如下图和公式所示:

    94d38c777a9f384642716c61f8fccee1.png

    cd7ef957c7a1d51fa885b5f09596857a.png

    评论。研究者彻底研究了提出的模型中两个视觉分支之间的多层次交互。cross-transformer特征主干中的三个阶段使两个分支与低级、中级和高级视觉特征逐渐有效交互。

    The Cross-Transformer Detection Head

    在detection head部分,和以上操作相反,在每张query上提取完proposal之后经过ROI Align可以得到ROI特征fp∈RBp∗H′∗W′∗C3,其中Bp=100,为了减少计算复杂度还是对support进行ave操作fs′=1Bs∑Bsfs,fs′∈R1∗H′∗W′∗C3,然后使用Asymmetric-Batched Cross-Attention计算俩分支attention,不同的是,query分支Bp≥1 and Bs′=1 。

    04

    实验

    25b00115d9eb988968442893d0e00276.png

    从上面表格的(c-d)俩行可以看出,使用三阶段训练在2-shot、10-shot上均有提升。

    6e4c37df42e3286ce8eed216431c7ec5.png

    b71c24416c57fc065c06e5489975485a.png

    © THE END 

    转载请联系本公众号获得授权

    319a508f95a173746f5a09028312fa04.gif

    计算机视觉研究院学习群等你加入!

    我们开创“计算机视觉协会”知识星球两年有余,也得到很多同学的认可,最近我们又开启了知识星球的运营。我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

    11223fddf88ad3364e39fd960b42bfe2.jpeg

    ABOUT

    计算机视觉研究院

    计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

    VX:2311123606

    8d4156eb91e632e6d443c16906b70e07.png

    往期推荐 

    🔗

    • Yolov7:最新最快的实时检测框架,最详细分析解释(附源代码)

    • 打假Yolov7的精度,不是所有的论文都是真实可信

    • 最新的目标检测的深度架构 | 参数少一半、速度快3倍+(文末福利)

    • SSD7 | 对嵌入式友好的目标检测网络,产品落地

    • 精度提升方法:自适应Tokens的高效视觉Transformer框架(已开源)

    • ONNX 浅析:如何加速深度学习算法工程化?

    • 劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载)

    • FastestDet:比yolov5更快!更强!全新设计的超实时Anchor-free目标检测算法(附源代码下载)

    • 目前精度最高效率最快存储最小的目标检测模型(附源码下载)

    • CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载)

    • Double-Head:检测头上再创新,提升精度(附原论文下载)

    • 海康研究院出品:具有场景自适应概念学习的无监督目标检测(附论文下载)

    • 新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!

  • 相关阅读:
    SMART 200 PLC S型速度曲线应用(梯形图算法优化)
    ATFX:转机未现,EURUSD空头趋势恐延续,但短线或有反弹
    可替代allegroA3909的国产芯片GC3909的数据分析
    elasticsearch内存占用详细分析
    鲲鹏arrch64系统编译安装Hadoop3.2.2
    基于postgis实现坐标转换的几个函数
    【Python GUI库】六个图形用户界面库优缺点及实例预览
    【科学文献计量】metaknowledge创建和处理知识网络的方法与 RC.networkCoAuthor()中的参数解释
    ros编译报错-- Could NOT find ros_ethercat_eml (missing: ros_ethercat_eml_DIR)
    图解电商系统的架构演进
  • 原文地址:https://blog.csdn.net/gzq0723/article/details/126416346
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号