DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

原文链接：https://arxiv.org/pdf/2203.08195.pdf

1.引言

        目前的方法主要基于两种融合方式：早期融合（融合数据）和中期融合（融合特征）。

        但是，由于数据增广通常是针对单一模态的；且一个点云体素可能对应多个图像像素，这些像素特征不是对3D检测同等重要的。因此，寻找图像和点云之间的特征对应关系是一个挑战。

        本文提出InverseAug和LearnableAlign进行有效的中期融合。前者反转与几何相关的数据增广，然后使用相机和激光雷达的原始参数关联两个模态；后者使用交叉注意力动态学习两模态特征关系。

        本文的多模态检测插件被称为DeepFusion，与现有的基于体素的检测方法兼容并能端到端训练。

        实验表明深度特征对齐是多模态3D检测的关键，且DeepFusion对输入损坏和分布外样本更加鲁棒，对远距离物体的检测最有帮助。

3.DeepFusion

3.1 深度特征融合的流程

        如下图所示，过去的方法如PointPainting或PointAugmenting使用额外的任务训练图像特征提取器，将图像特征附加到激光雷达点云上进行基于点云的检测。这种非端到端学习的方式会导致domain gap、需要额外标注、引入额外计算，以及（对于3D检测任务的）非最优特征提取。此外，这些方法中图像特征随着点云一起被点云方法处理（如体素化），但点云处理方法可能不适合处理图像特征。

        本文通过在激光雷达点云的特征层面融合图像特征，并将图像特征提取器与网络其余部分一起训练，以解决上述问题。如下图所示，图像和激光雷达点云分别送入各自的特征提取器得到特征，融合后输入激光雷达检测网络的剩余部分进行3D检测。这样高分辨率、富含上下文信息的图像特征不会被体素化转换到BEV下，且实现了端到端训练。

        但缺点是特征层面的融合使得对齐不如数据层面的融合直接，在各模态上分别进行的数据增广也会给融合带来困难。

3.2 对齐质量的影响

        仅对激光雷达点云进行旋转数据增广，而不对图像进行任何数据增广。当旋转角增大时，多模态融合带来的性能增益下降。因此对齐对多模态融合很重要。

3.3 提高对齐质量

        InverseAug：通常会在训练时使用数据增广来避免过拟合并提高性能，但图像和点云独立的数据增广方法会导致对齐困难。如下图所示，首先存储几何数据增广的增广参数，融合阶段的3D关键点（可以是任何3D坐标，如激光雷达点或体素中心等等）根据该参数进行逆向增广得到原始坐标，再在图像中寻找相应的像素。注意该方法也适用于图像数据增广和多模态数据增广。

        LearnableAlign：体素与像素的对应是一对多的关系。由于各像素的重要性不同，如前景像素的重要性可能大于背景像素，直接平均各像素特征可能不是最优方案。本文使用交叉注意力动态捕捉模态之间的相互关系（如图1所示）。

        LearnableAlign的输入包含一个体素及其对应的个像素特征，先分别使用3个MLP将体素特征转换为查询，图像特征转化为键和值。然后计算查询与键的内积，得到该体素与个像素之间的相关性，用softmax归一化后，该相关性用于加权聚合，最后通过全连接层并与体素特征拼接，输入到3D检测网络中。

4.实验

        数据集为Waymo Open。

4.1 实施细节

        LearnableAlign：与动态体素化结合实现（详见附录）。

        InverseAug：训练时依次使用下列数据增广：随机旋转、全局缩放、全局平移噪声、随机翻转、Frustum-Dropout、随机丢弃激光点。在融合阶段，反过来（包含顺序和增广方向）应用几何增广方法将3D关键点转换到原始坐标下。

4.3 DeepFusion的通用性

        本文将DeepFusion插入各激光雷达检测网络，得到了一致的性能提升。

4.4 性能提升的来源

        本文比较了不同距离下检测性能的提升情况，其中远距离物体的检测精度提升最大，这可能是因为远处激光雷达点的稀疏性被高分辨率图像信号补偿。

        可视化注意力图可以发现，模型关注有判别力的区域和物体边缘，因此高分辨率相机信号可以帮助识别和预测物体边界。

4.5 InverseAug和LearnableAlign的影响

        在激光雷达检测模型的基础上，引入两者均能促进检测，且InverseAug的影响更大。

4.6 与其余融合方法的比较

        与输入融合（数据融合/早期融合）和晚期融合（分别体素化图像和点云特征后拼接）相比，本文方法性能最佳。

4.7 鲁棒性

        对损坏输入的鲁棒性：相比单一模态方法，使用DeepFusion的多模态方法对激光噪声和像素噪声的鲁棒性远远更强。

        对分布外（OOD）数据的鲁棒性：使用DeepFusion的多模态方法在分布外数据上的性能提升（基准为单一模态方法）比分布内数据更高。

A.附录

A.2 3D检测器的实施细节

        基本方案的改进：本文通过改进PointPillars、CenterPoint和3D-MAN中的体素特征编码器（全连接层变为MLP；使用神经结构搜索（NAS）选择最佳超参数）和激活函数（ReLU变成SILU），大幅提高了检测性能。

        注意此部分与DeepFusion无关。

        训练细节：使用两个难度的数据进行训练，并使用不确定性损失以容忍模型以较低的精度检测低置信度物体。

        提交模型的细节：还通过拼接前帧的点云（为防止过拟合，每一帧以一定的概率被丢弃，该方法称为DropFrame）来组合过去帧信息；测试时，使用模型集成并通过加权框融合（WBF）进行测试时增广（TTA）。

A.3 与大型单一模态方法的比较

        通过改变伪图像/体素分辨率来改变模型延迟。在相同的延迟下，DeepFusion的方法要优于单一模态方法；且即使增大单一模态方法的模型尺度，性能上限也比此时的DeepFusion低。
相关阅读:
算法试题——每日一练
 MongoDB从入门到精通、Springboot整合MongoDB
工作摸鱼秘籍
 2024年，提升Windows开发和使用体验实践 - 终端&命令行篇
 vue生命周期函数
 《软件方法》自测题解析-006：误以为是业务建模
 指令FTP/SFTP(有/无密码)连接、下载以及上传
 网安之python基础学习作业(1)
LeetCode764，每日一题20221109，最大加号标志
 金仓数据库兼容Oracle exp/imp的导出导入工具手册（3. exp/imp工具介绍）
原文地址：https://blog.csdn.net/weixin_45657478/article/details/126355439

1.引言

3.DeepFusion

3.1 深度特征融合的流程

3.2 对齐质量的影响

3.3 提高对齐质量

4.实验

4.1 实施细节

4.3 DeepFusion的通用性

4.4 性能提升的来源

4.5 InverseAug和LearnableAlign的影响

4.6 与其余融合方法的比较

4.7 鲁棒性

A.附录

A.2 3D检测器的实施细节

A.3 与大型单一模态方法的比较