SupFusion：探索如何有效监督Lidar-Camera融合的3D检测网络？

程序猿 • 2025年11月8日 15:05:42 • 科技 • 阅读 0

基于激光雷达相机融合的3d检测是自动驾驶的一项关键任务。近年来，出现了许多激光雷达相机融合方法，并取得了良好的性能，但是这些方法始终缺乏精心设计和有效监督的融合过程

本文介绍了一种名为SupFusion的新训练策略，它为激光雷达相机融合提供了辅助特征级监督，并显著提高了检测性能。该方法包括Polar Sampling数据增强方法，用于加密稀疏目标并训练辅助模型生成高质量特征进行监督。这些特征用于训练激光雷达相机融合模型，优化融合特征以模拟生成高质量特征。此外，还提出了一种简单而有效的深度融合模块，与之前使用SupFusion策略的融合方法相比，该模块连续获得了优越的性能。本文的方法具有以下优点：首先，SupFusion引入了辅助特征级监督，可以在不增加额外推理成本的情况下提高激光雷达相机的检测性能。其次，所提出的深度融合可以不断提高检测器的能力。提出的SupFusion和深度融合模块是即插即用的，本文通过大量实验证明了它们的有效性。在基于多个激光雷达相机的3D检测KITTI基准测试中，取得了约2%的3D mAP改进！

图1：顶部，以前的激光雷达相机3D检测模型，融合模块是通过检测loss进行优化的。底部：本文提出的SupFusion，通过辅助模型提供的高质量特征引入辅助监督。

基于激光雷达相机融合的3D检测是自动驾驶和机器人技术的一项关键且具有挑战性的任务，先前的方法总是通过内参和外参将相机输入投影到激光雷达BEV或体素空间，以对齐激光雷达和相机特征。然后，采用简单的级联或求和来获得用于最终检测的融合特征。此外，一些基于深度学习的融合方法获得了有希望的性能。然而，以往的融合方法总是通过检测损失直接优化3D/2D特征提取和融合模块，这在特征层面缺乏精心设计和有效的监督，限制了其性能。

近年来，蒸馏方式在用于3D检测的特征级监督方面显示出很大的改进。一些方法提供了激光雷达特征，以指导2D主干根据相机输入估计深度信息。此外，一些方法提供了激光雷达相机融合功能，以监督激光雷达主干从激光雷达输入中学习全局和上下文表示。通过模拟更稳健和高质量的特征引入特征级辅助监督，检测器可以促进边际改进。受此启发，处理激光雷达相机特征融合的自然解决方案是提供更强、高质量的特征，并为激光雷达相机3D检测引入辅助监督！

为了提高基于激光雷达相机的融合3D检测性能，本文提出了一种名为SupFusion的监督式激光雷达相机融合方法。该方法通过生成高质量的特征，并为融合和特征提取过程提供有效的监督来实现。首先，我们训练一个辅助模型，以提供高质量的功能。与以往利用较大模型或额外数据的方法不同，我们提出了一种新的数据增强方法，称为Polar Sampling。Polar Sampling可以从稀疏的激光雷达数据中动态增强目标的密度，从而更容易检测并提高特征质量，例如准确的检测结果。然后，我们简单地训练基于激光雷达相机融合的检测器，并引入辅助特征级监督。在这一步中，我们将原始激光雷达和相机输入输入到3D/2D主干和融合模块中，以获得融合特征。融合特征被馈送到检测头中用于最终预测，同时辅助监督将融合特征模拟为高质量特征。这些特征是通过预训练的辅助模型和增强的激光雷达数据获得的。通过这种方式，所提出的特征级监督可以使融合模块生成更稳健的特征，并进一步提高检测性能。为了更好地融合激光雷达和相机的特征，我们提出了一种简单而有效的深度融合模块，该模块由堆叠的MLP块和动态融合块组成。SupFusion可以充分挖掘深度融合模块的能力，并不断提高探测精度！

本文的主要贡献：

提出了一种新的监督融合训练策略SupFusion，该策略主要由高质量的特征生成过程组成，并首次提出了用于鲁棒融合特征提取和精确3D检测的辅助特征级监督损失。为了在SupFusion中获得高质量的特征，提出了一种名为“Polar Sampling”的数据增强方法来加密稀疏目标。此外，还提出了一种有效的深度融合模块，以连续提高检测精度。基于具有不同融合策略的多个检测器进行了广泛的实验，并在KITTI基准上获得了约2%的mAP改进。

提出的方法

高质量的特征生成过程如下图所示，对于任何给定的LiDAR样本，通过polar pasting粘贴来加密稀疏目标，极轴polar pasting计算方向和旋转以从数据库中查询密集目标，并通过pasting为稀疏目标添加额外的点。本文首先通过增强的数据训练辅助模型，并将增强的激光雷达数据馈送到辅助模型中，以在其收敛后生成高质量特征f*。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

高质量的特征生成

为了在SupFusion中提供特征级监督，采用了一个辅助模型来从增强的数据中捕获高质量的特征，如图3所示。首先，训练一个辅助模型来提供高质量的特征。对于D中的任何样本，通过polar pasting来增强稀疏的激光雷达数据，以获得增强的数据，该极性粘贴通过极性分组中生成的添加点集来加密备用目标。然后，在辅助模型收敛之后，将增强的样本输入到优化的辅助模型中，以捕获高质量特征，用于训练激光雷达相机3D检测模型。为了更好地应用于给定的激光雷达相机检测器并更容易实现，这里简单地采用激光雷达分支探测器作为辅助模型！

检测器训练

对于任何给定的激光雷达相机检测器，在特征级别使用所提出的辅助监督来训练模型。给定样本，的情况下，首先将激光雷达和相机输入到3D和2D编码器和中，以捕获相应的特征和，这些特征被输入到融合模型中以生成融合特征，并流到检测头中进行最终预测。此外，采用所提出的辅助监督来模拟具有高质量特征的融合特征，该特征是由预先训练的辅助模型和增强的激光雷达数据生成的。上述过程可以公式化为：

Polar Sampling

为了提供高质量的特征，本文在提出的SupFusion中引入了一种名为Polar Sampling的新的数据增强方法，以解决稀疏问题，该问题经常导致检测失败。为此，我们对激光雷达数据中的稀疏目标进行了密集处理，类似于密集目标的处理方式。极坐标采样由两个部分组成，即极坐标分组和极坐标粘贴。在极坐标分组中，我们主要建立了一个数据库来存储密集目标，该数据库用于极坐标粘贴，从而使稀疏目标变得更加密集

人民网AIGC-X

国内科研机构联合推出的AI生成内容检测工具

31 查看详情

考虑到激光雷达传感器的特性，收集到的点云数据自然存在特定的密度分布。例如，物体在表面上有更多的点朝向激光雷达传感器，而在相对两侧的点很少。密度分布主要受方向和旋转的影响，而点的密度主要取决于距离。离激光雷达传感器更近的物体具有更密集的点。受此启发，本文的目标是根据稀疏目标的方向和旋转，将长距离的稀疏目标与短距离的密集目标进行密度化，以保持密度分布。我们基于场景中心和特定目标为整个场景以及目标建立极坐标系，并将激光雷达传感器的正方向定义为0度，以测量相应的方向和旋转。然后，我们收集具有相似密度分布（例如，具有相似方向和旋转）的目标，并为极性分组中的每组生成一个密集目标，并在极坐标粘贴中使用它来密集稀疏目标

Polar Grouping

如图4所示，这里构建了一个数据库B，根据极性分组中的方向和旋转来存储生成的密集物点集l，在图4中记为α和β！

首先，搜索整个数据集，通过位置计算所有目标的极角，并在基准中提供旋转。其次，根据目标的极角将它们分成几组。手动将方向和旋转划分为N组，对于任何目标点集l，都可以根据索引将其放入相应的组中：

Polar Pasting

如图2所示，利用Polar Pasting来增强稀疏的激光雷达数据，以训练辅助模型并生成高质量特征。给定LiDAR样本，，，，包含个目标，对于任何目标，都可以计算与分组过程相同的方向和旋转，并根据标签和索引从B查询密集目标，这可以从E.q.6中获得增强样本中的所有目标并获得增强的数据。

Deep Fusion

为了模拟增强型激光雷达数据生成的高质量特征，融合模型旨在从相机输入中丰富的颜色和上下文特征中提取稀疏目标的缺失信息。为此，本文提出了深度融合模块，以利用图像特征并完成激光雷达演示。所提出的深度融合主要由3D学习器和2D-3D学习器组成。3D学习器是一个简单的卷积层，用于将3D呈现转移到2D空间中。然后，连接2D特征和3D呈现（例如，在2D空间中），2D-3D学习器被用来融合LiDAR相机特征。最后，通过MLP和激活函数对融合特征进行了加权，将其添加回原始激光雷达特征作为深度融合模块的输出。2D-3D学习器由深度为K的堆叠MLP块组成，学习利用相机特征来完成稀疏目标的激光雷达表示，以模拟密集激光雷达目标的高质量特征。

实验对比分析

实验结果(mAP@R40%）。这里列出了三个类别的简单、中等（mod.）和困难情况，以及总体性能。这里L、LC、LC*表示相应的激光雷达检测器、激光雷达相机融合检测器和本文提案的结果。∆表示改进。最佳结果以粗体显示，预期L†是辅助模型，并在增强验证集上进行测试。MVXNet是基于mmdetection3d重新进行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的开源代码重新进行的。

重写后的内容：整体性能。根据表1中的比较结果，3DmAP@R40基于三个检测器的比较显示了各个类别和每个难度划分的总体性能。可以明显观察到，通过引入额外的相机输入，激光雷达相机方法（LC）在性能上优于基于激光雷达的检测器（L）。通过引入极性采样，辅助模型（L†）在增强的验证集上表现出令人钦佩的性能（例如超过90%的mAP）。借助具有高质量特征的辅助监督和提出的深度融合模块，我们的提案不断提高检测精度。例如，与基线（LC）模型相比，我们的提案在中度和难度目标上分别获得了+1.54%和+1.24%的3D mAP改进。此外，我们还对基于SECOND-LC的nuScenes基准进行了实验，如表2所示，NDS和mAP分别提高了+2.01%和+1.38%

class感知改进分析。与基线模型相比，SupFusion和深度融合不仅可以提高整体性能，还可以提高包括Pedestrian在内的每个类别的检测性能，比较三个类别的平均改善（例如中等情况），可以获得以下观察结果：骑自行车的人获得最大的改善（+2.41%），而行人和汽车分别获得+1.35%和+0.86%的改善。原因很明显：（1）与行人和骑自行车的人相比，汽车更容易被发现，并获得最佳效果，因此更难改进。（2）与行人相比，骑自行车的人获得了更多的改进，因为行人是非网格的，生成的密集目标与骑自行车的相比不那么好，因此获得的性能改进较低！

请点击以下链接查看原文内容：https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw

以上就是SupFusion：探索如何有效监督Lidar-Camera融合的3D检测网络？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/489568.html

自动驾驶训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

济源：夜空被千架无人机点亮

上一篇 2025年11月8日 15:04:55

企鹅罐VR工作室MR游戏《忍者之刃》在2023年高通XR挑战赛中获得银奖

下一篇 2025年11月8日 15:06:14

好文分享

如何搭建C++自动驾驶环境 Apollo平台配置

搭建C++自动驾驶环境需先配置Ubuntu系统、Docker及NVIDIA驱动，再克隆Apollo代码并构建Docker镜像，进入容器后用bazel编译，启动Dreamview可视化界面，选择地图与模块运行Demo；常见问题如编译失败可清理缓存或更新依赖，自定义车辆模型和地图需掌握URDF与prot…

程序猿
2025年12月18日
0000
如何配置C++的自动驾驶规划环境 Apollo规划模块二次开发

为什么apollo规划模块的二次开发需要特定的环境配置？apollo使用docker和bazel是为了处理复杂的依赖关系、确保构建一致性、支持gpu加速以及提升团队协作效率。2. 在apollo环境中进行规划模块二次开发的关键步骤包括：准备宿主机环境、克隆apollo仓库、进入docker环境、编译…

程序猿
2025年12月18日 • 好文分享
0000
自动驾驶实时系统：确定性内存分配器开发指南

自动驾驶实时系统对确定性内存分配器的需求，是为了确保内存操作在可预测时间内完成，从而保障系统的稳定与安全。1. 预分配和内存池通过预先分配固定大小的内存块，实现o(1)时间复杂度的快速分配与释放，但可能导致内存浪费；2. bump allocator使用移动指针的方式实现极快的分配，但通常不支持单独…

程序猿
2025年12月18日 • 好文分享
0000
好文分享

如何在C++中进行自动驾驶和智能导航开发？

如何在C++中进行自动驾驶和智能导航开发？自动驾驶和智能导航是当今科技发展的热门领域之一。随着计算机硬件技术的快速发展和算法的不断完善，C++语言在自动驾驶和智能导航领域的应用越来越广泛。本文将介绍如何在C++中进行自动驾驶和智能导航的开发，并提供代码示例。传感器数据获取与处理自动驾驶和智能导…

程序猿
2025年12月17日
0000
好文分享

如何实现C++中的自动驾驶和智能交通系统？

如何实现C++中的自动驾驶和智能交通系统？自动驾驶和智能交通系统是目前人工智能领域的热门话题，它们的应用领域涉及到交通运输、安全防护和城市规划等多个方面。本文将探讨如何使用C++编程语言实现自动驾驶和智能交通系统，并提供相关的代码示例。了解自动驾驶和智能交通系统基本原理自动驾驶系统是指通过计算机…

程序猿
2025年12月17日
1000
无需电池即可实现「自动驾驶」，华盛顿大学开发出无限续航的机器人

不装电池，也能%ignore_a_1%的“车”出现了。甚至还会自动收集能量持续运行，完全没有里程焦虑（手动狗头）。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错，这么一个小机器人，其实靠的是光和无线电波供能。其名MilliMobil…

程序猿
2025年12月2日 • 科技
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 科技
0000
BEV下的Radar-Camera 融合跨数据集实验研究

原标题：cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接：https://arxiv.org/pdf/2309.15465.pdf作者单位：opel automobile gmbh rhein…

程序猿
2025年12月2日 • 科技
0000
遥遥领先！BEVHeight++：针对路侧视觉3D目标检测新方案！

回归到地面的高度，以实现距离不可知的公式，从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上，方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上，方法取得了实质性的进步，nds和map分别…

程序猿
2025年12月2日 • 科技
0000
改进自动驾驶在不确定环境下的轨迹规划方法

论文题目：《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》发表期刊：IEEE Transactions on Intelligent Transportation Systems 发布日期：2023年04月以下是我自己的論文閱讀筆記，主要是我自己覺得重點的部分，非全文翻譯，該…

程序猿
2025年12月2日 • 科技
0000
LeCun对自动驾驶独角兽的造假行为深感失望

你以为这是一个普通的自动驾驶视频吗？ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片这个内容需要重新写成中文，而不改变原来的意思没有一帧是“真的”。图片不同路况、各种天气，20多种情况都能模拟，效果以假乱真。图片世界模型再次…

程序猿
2025年12月2日 • 科技
0000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 科技
2000
实战部署：动态时序网络用于端到端检测和跟踪

本文经自动驾驶之心公众号授权转载，转载请联系出处。相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型，可以首…

程序猿
2025年12月2日 • 科技
0000
自动驾驶中的交通规则识别问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题，需要具体代码示例摘要：自动驾驶技术正在迅速发展，并且在未来有望实现商业化应用。然而，与此同时，自动驾驶车辆面临着一个重要的挑战，即交通规则的识别和遵守问题。本文将…

程序猿
2025年12月1日 • 科技
0000
BAT方法：AAAI 2024首个多模态目标追踪通用双向适配器

目标跟踪是计算机视觉的基础任务之一，近年来，单模态（RGB）目标跟踪取得了重大进展。然而，由于单一成像传感器的限制，我们需要引入多模态图像（如RGB、红外等）来弥补这一缺陷，以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息，增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

程序猿
2025年12月1日 • 科技
1000
自动驾驶与轨迹预测看这一篇就够了！

轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富，需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构（cnn&gnn&…

程序猿
2025年12月1日 • 科技
0000
微软6页论文爆火：三进制LLM，真香！

这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM，都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的…

程序猿
2025年12月1日 • 科技
0000
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

在标准的UNet结构中，long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。然而，在一些著名的扩散模型工作中，比如Imagen， Score-based generati…

程序猿
2025年12月1日 • 科技
0000
陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队刚刚发布了一种新的llm上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。最重要的是，在这个过程中，只需要原来1/6的内存，模型就获得了10倍吞吐量。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSee…

程序猿
2025年12月1日 • 科技
0000
ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！例如来一句：头发凌乱的女性，在卧室里。Woman with messy hair, in the bedroo…

程序猿
2025年12月1日 • 科技
0000

发表回复

登录后才能评论