• DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记


    原文链接:https://arxiv.org/pdf/2203.08195.pdf

    1.引言

            目前的方法主要基于两种融合方式:早期融合(融合数据)和中期融合(融合特征)。

            但是,由于数据增广通常是针对单一模态的;且一个点云体素可能对应多个图像像素,这些像素特征不是对3D检测同等重要的。因此,寻找图像和点云之间的特征对应关系是一个挑战。

            本文提出InverseAugLearnableAlign进行有效的中期融合。前者反转与几何相关的数据增广,然后使用相机和激光雷达的原始参数关联两个模态;后者使用交叉注意力动态学习两模态特征关系。

            本文的多模态检测插件被称为DeepFusion,与现有的基于体素的检测方法兼容并能端到端训练。

            实验表明深度特征对齐是多模态3D检测的关键,且DeepFusion对输入损坏和分布外样本更加鲁棒,对远距离物体的检测最有帮助。

    3.DeepFusion

    3.1 深度特征融合的流程

            如下图所示,过去的方法如PointPainting或PointAugmenting使用额外的任务训练图像特征提取器,将图像特征附加到激光雷达点云上进行基于点云的检测。这种非端到端学习的方式会导致domain gap、需要额外标注、引入额外计算,以及(对于3D检测任务的)非最优特征提取。此外,这些方法中图像特征随着点云一起被点云方法处理(如体素化),但点云处理方法可能不适合处理图像特征。

            本文通过在激光雷达点云的特征层面融合图像特征,并将图像特征提取器与网络其余部分一起训练,以解决上述问题。如下图所示,图像和激光雷达点云分别送入各自的特征提取器得到特征,融合后输入激光雷达检测网络的剩余部分进行3D检测。这样高分辨率、富含上下文信息的图像特征不会被体素化转换到BEV下,且实现了端到端训练。

            但缺点是特征层面的融合使得对齐不如数据层面的融合直接,在各模态上分别进行的数据增广也会给融合带来困难。

    3.2 对齐质量的影响

            仅对激光雷达点云进行旋转数据增广,而不对图像进行任何数据增广。当旋转角增大时,多模态融合带来的性能增益下降。因此对齐对多模态融合很重要。

    3.3 提高对齐质量

            InverseAug:通常会在训练时使用数据增广来避免过拟合并提高性能,但图像和点云独立的数据增广方法会导致对齐困难。如下图所示,首先存储几何数据增广的增广参数,融合阶段的3D关键点(可以是任何3D坐标,如激光雷达点或体素中心等等)根据该参数进行逆向增广得到原始坐标,再在图像中寻找相应的像素。注意该方法也适用于图像数据增广和多模态数据增广。

            LearnableAlign:体素与像素的对应是一对多的关系。由于各像素的重要性不同,如前景像素的重要性可能大于背景像素,直接平均各像素特征可能不是最优方案。本文使用交叉注意力动态捕捉模态之间的相互关系(如图1所示)。

            LearnableAlign的输入包含一个体素及其对应的N个像素特征,先分别使用3个MLP将体素特征转换为查询q^l,图像特征转化为键k^c和值v^c。然后计算查询与键的内积,得到该体素与N个像素之间的相关性,用softmax归一化后,该相关性用于加权聚合v^c,最后通过全连接层并与体素特征拼接,输入到3D检测网络中。

    4.实验

            数据集为Waymo Open。

    4.1 实施细节

            LearnableAlign:与动态体素化结合实现(详见附录)。

            InverseAug:训练时依次使用下列数据增广:随机旋转、全局缩放、全局平移噪声、随机翻转、Frustum-Dropout、随机丢弃激光点。在融合阶段,反过来(包含顺序和增广方向)应用几何增广方法将3D关键点转换到原始坐标下。

    4.3 DeepFusion的通用性

            本文将DeepFusion插入各激光雷达检测网络,得到了一致的性能提升。

    4.4 性能提升的来源

            本文比较了不同距离下检测性能的提升情况,其中远距离物体的检测精度提升最大,这可能是因为远处激光雷达点的稀疏性被高分辨率图像信号补偿。

            可视化注意力图可以发现,模型关注有判别力的区域和物体边缘,因此高分辨率相机信号可以帮助识别和预测物体边界。

    4.5 InverseAug和LearnableAlign的影响

            在激光雷达检测模型的基础上,引入两者均能促进检测,且InverseAug的影响更大。

    4.6 与其余融合方法的比较

            与输入融合(数据融合/早期融合)和晚期融合(分别体素化图像和点云特征后拼接)相比,本文方法性能最佳。

    4.7 鲁棒性

            对损坏输入的鲁棒性:相比单一模态方法,使用DeepFusion的多模态方法对激光噪声和像素噪声的鲁棒性远远更强。

            对分布外(OOD)数据的鲁棒性:使用DeepFusion的多模态方法在分布外数据上的性能提升(基准为单一模态方法)比分布内数据更高。

    A.附录

    A.2 3D检测器的实施细节

            基本方案的改进:本文通过改进PointPillars、CenterPoint和3D-MAN中的体素特征编码器(全连接层变为MLP;使用神经结构搜索(NAS)选择最佳超参数)和激活函数(ReLU变成SILU),大幅提高了检测性能。

            注意此部分与DeepFusion无关

            训练细节:使用两个难度的数据进行训练,并使用不确定性损失以容忍模型以较低的精度检测低置信度物体。

            提交模型的细节:还通过拼接前N帧的点云(为防止过拟合,每一帧以一定的概率被丢弃,该方法称为DropFrame)来组合过去帧信息;测试时,使用模型集成并通过加权框融合(WBF)进行测试时增广(TTA)。

    A.3 与大型单一模态方法的比较

            通过改变伪图像/体素分辨率来改变模型延迟。在相同的延迟下,DeepFusion的方法要优于单一模态方法;且即使增大单一模态方法的模型尺度,性能上限也比此时的DeepFusion低。

  • 相关阅读:
    算法试题——每日一练
    MongoDB从入门到精通、Springboot整合MongoDB
    工作摸鱼秘籍
    2024年,提升Windows开发和使用体验实践 - 终端&命令行篇
    vue生命周期函数
    《软件方法》自测题解析-006:误以为是业务建模
    指令FTP/SFTP(有/无密码)连接、下载以及上传
    网安之python基础学习作业(1)
    LeetCode764,每日一题20221109,最大加号标志
    金仓数据库兼容Oracle exp/imp的导出导入工具手册(3. exp/imp工具介绍)
  • 原文地址:https://blog.csdn.net/weixin_45657478/article/details/126355439