Sparse4D v3来了！推进端到端3D检测和跟踪

程序猿 • 2025年11月8日 02:28:29 • 科技 • 阅读 0

新标题：sparse4d v3：推进端到端的3d检测和跟踪技术

论文链接：https://arxiv.org/pdf/2311.11722.pdf

需要重新写的内容是：代码链接：https://github.com/linxuewu/Sparse4D

重新写的内容：作者所属单位为地平线公司

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文思路：

在自动驾驶感知系统中，3D检测和跟踪是两项基本任务。本文基于 Sparse4D 框架更深入地研究了该领域。本文引入了两个辅助训练任务（时序实例去噪-Temporal Instance Denoising和质量估计-Quality Estimation），并提出解耦注意力(decoupled attention)来进行结构改进，从而显着提高检测性能。此外，本文使用一种简单的方法将检测器扩展到跟踪器，该方法在推理过程中分配实例 ID，进一步突出了 query-based 算法的优势。在 nuScenes 基准上进行的大量实验验证了所提出的改进的有效性。以ResNet50为骨干，mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%，分别达到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 测试集上实现了 71.9% NDS 和 67.7% AMOTA

主要贡献：

Sparse4D-v3 是一个强大的 3D 感知框架，它提出了三种有效的策略：时序实例去噪、质量估计和解耦注意力

本文将 Sparse4D 扩展为端到端跟踪模型。

本文展示了 nuScenes 改进的有效性，在检测和跟踪任务中实现了最先进的性能。

网络设计：

首先，观察到与稠密算法相比，稀疏算法在收敛方面面临更大的挑战，从而影响了最终性能。这个问题已经在2D检测领域得到了充分研究[17,48,53]，主要原因是稀疏算法使用了一对一的正样本匹配。这种匹配方式在训练初期不稳定，而且与一对多匹配相比，正样本数量有限，从而降低了解码器训练的效率。此外，Sparse4D使用稀疏特征采样而不是全局交叉注意力，由于正样本稀缺，这进一步阻碍了编码器的收敛。在Sparse4Dv2中，引入了密集深度监督来部分缓解图像编码器面临的这些收敛问题。本文的主要目标是通过关注解码器训练的稳定性来增强模型性能。本文将去噪任务作为辅助监督，并将去噪技术从2D单帧检测扩展到3D时序检测。这不仅保证了稳定的正样本匹配，而且显著增加了正样本的数量。此外，本文还引入了质量评估任务作为辅助监督。这使得输出的置信度分数更加合理，提高了检测结果排名的准确性，从而获得更高的评估指标。此外，本文改进了Sparse4D中实例自注意力和时序交叉注意力模块的结构，引入了一种解耦注意力机制，旨在减少注意力权重计算过程中的特征干扰。通过将锚点嵌入和实例特征作为注意力计算的输入，可以减少注意力权重中存在异常值的实例。这样可以更准确地反映目标特征之间的相互关联，从而实现正确的特征聚合。本文使用连接而不是注意力机制来显著减少这种错误。这种增强方法与条件DETR有相似之处，但关键区别在于本文强调查询之间的注意力，而条件DETR则专注于查询和图像特征之间的交叉注意力。此外，本文还涉及独特的编码方法

为了提高感知系统的端到端能力，本文研究了将3D多目标跟踪任务集成到Sparse4D框架中的方法，以直接输出目标的运动轨迹。与基于检测的跟踪方法不同，本文通过消除数据关联和过滤的需求，将所有跟踪功能整合到检测器中。此外，与现有的联合检测和跟踪方法不同，本文的跟踪器在训练过程中无需进行修改或调整损失函数。它不需要提供ground truth IDs，而是实现了预定义的实例到跟踪的回归。本文的跟踪实现充分融合了检测器和跟踪器，无需修改检测器的训练过程，也无需额外微调

知了追踪

AI智能信息助手，智能追踪你的兴趣资讯

64 查看详情

这是一个关于Sparse4D框架概述的图1，输入是多视图视频，输出是所有帧的感知结果

图 2：不同算法的 nuScenes 验证数据集上的推理效率 (FPS) – 感知性能 (mAP)。

图 3：实例自注意力中的注意力权重的可视化：1）第一行显示了普通自注意力中的注意力权重，其中红色圆圈中的行人显示出与目标车辆（绿色框）的意外相关性。2）第二行显示了解耦注意力中的注意力权重，有效解决了该问题。

第四张图展示了时序实例去噪的示例。在训练阶段，实例包括两个部分：可学习的和噪声的。噪声实例由时间和非时间元素组成。本文采用预匹配方法来分配正样本和负样本，即将 anchors 与 ground truth 进行匹配，而可学习实例则与预测和 ground truth 进行匹配。在测试阶段，只保留绿色块。为防止特征在 groups 之间传播，采用了 Attention mask，灰色表示 queries 和 keys 之间没有注意力，绿色表示相反

请看图5：锚点编码器和注意力的架构。本文独立地对锚点的多个组件进行了高维特征编码，然后将它们连接起来。与原始的Sparse4D相比，这种方法可以减少计算和参数的开销。E和F分别表示锚点嵌入和实例特征

实验结果：

总结:

本文首先提出了增强 Sparse4D 检测性能的方法。这一增强主要包括三个方面：时序实例去噪、质量估计和解耦注意力。随后，本文说明了将 Sparse4D 扩展为端到端跟踪模型的过程。本文在 nuScenes 上的实验表明，这些增强功能显着提高了性能，使 Sparse4Dv3 处于该领域的前沿。

引用：

Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722

以上就是Sparse4D v3来了！推进端到端3D检测和跟踪的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/458368.html

自动驾驶训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

武汉揭晓首批“人工智能伙伴”名单，30家机构获选

上一篇 2025年11月8日 02:22:54

新技术推出，IDEA研究院发布T-Rex模型，让用户能够直接在图像上选择“Prompt”提示

下一篇 2025年11月8日 02:32:50

好文分享

如何搭建C++自动驾驶环境 Apollo平台配置

搭建C++自动驾驶环境需先配置Ubuntu系统、Docker及NVIDIA驱动，再克隆Apollo代码并构建Docker镜像，进入容器后用bazel编译，启动Dreamview可视化界面，选择地图与模块运行Demo；常见问题如编译失败可清理缓存或更新依赖，自定义车辆模型和地图需掌握URDF与prot…

程序猿
2025年12月18日
0000
如何配置C++的自动驾驶规划环境 Apollo规划模块二次开发

为什么apollo规划模块的二次开发需要特定的环境配置？apollo使用docker和bazel是为了处理复杂的依赖关系、确保构建一致性、支持gpu加速以及提升团队协作效率。2. 在apollo环境中进行规划模块二次开发的关键步骤包括：准备宿主机环境、克隆apollo仓库、进入docker环境、编译…

程序猿
2025年12月18日 • 好文分享
0000
自动驾驶实时系统：确定性内存分配器开发指南

自动驾驶实时系统对确定性内存分配器的需求，是为了确保内存操作在可预测时间内完成，从而保障系统的稳定与安全。1. 预分配和内存池通过预先分配固定大小的内存块，实现o(1)时间复杂度的快速分配与释放，但可能导致内存浪费；2. bump allocator使用移动指针的方式实现极快的分配，但通常不支持单独…

程序猿
2025年12月18日 • 好文分享
0000
好文分享

如何在C++中进行自动驾驶和智能导航开发？

如何在C++中进行自动驾驶和智能导航开发？自动驾驶和智能导航是当今科技发展的热门领域之一。随着计算机硬件技术的快速发展和算法的不断完善，C++语言在自动驾驶和智能导航领域的应用越来越广泛。本文将介绍如何在C++中进行自动驾驶和智能导航的开发，并提供代码示例。传感器数据获取与处理自动驾驶和智能导…

程序猿
2025年12月17日
0000
好文分享

如何实现C++中的自动驾驶和智能交通系统？

如何实现C++中的自动驾驶和智能交通系统？自动驾驶和智能交通系统是目前人工智能领域的热门话题，它们的应用领域涉及到交通运输、安全防护和城市规划等多个方面。本文将探讨如何使用C++编程语言实现自动驾驶和智能交通系统，并提供相关的代码示例。了解自动驾驶和智能交通系统基本原理自动驾驶系统是指通过计算机…

程序猿
2025年12月17日
1000
无需电池即可实现「自动驾驶」，华盛顿大学开发出无限续航的机器人

不装电池，也能%ignore_a_1%的“车”出现了。甚至还会自动收集能量持续运行，完全没有里程焦虑（手动狗头）。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错，这么一个小机器人，其实靠的是光和无线电波供能。其名MilliMobil…

程序猿
2025年12月2日 • 科技
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 科技
0000
BEV下的Radar-Camera 融合跨数据集实验研究

原标题：cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接：https://arxiv.org/pdf/2309.15465.pdf作者单位：opel automobile gmbh rhein…

程序猿
2025年12月2日 • 科技
0000
遥遥领先！BEVHeight++：针对路侧视觉3D目标检测新方案！

回归到地面的高度，以实现距离不可知的公式，从而简化仅相机感知方法的优化过程。在路侧camera的3d检测基准上，方法大大超过了以前所有以视觉为中心的方法。它比bevdepth产生了+1.9%的nds和+1.1%的map的显著改善。在nuscenes测试集上，方法取得了实质性的进步，nds和map分别…

程序猿
2025年12月2日 • 科技
0000
改进自动驾驶在不确定环境下的轨迹规划方法

论文题目：《基于改进的模型预测控制的自动驾驶车辆在不确定环境下的轨迹规划方法》发表期刊：IEEE Transactions on Intelligent Transportation Systems 发布日期：2023年04月以下是我自己的論文閱讀筆記，主要是我自己覺得重點的部分，非全文翻譯，該…

程序猿
2025年12月2日 • 科技
0000
LeCun对自动驾驶独角兽的造假行为深感失望

你以为这是一个普通的自动驾驶视频吗？ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片这个内容需要重新写成中文，而不改变原来的意思没有一帧是“真的”。图片不同路况、各种天气，20多种情况都能模拟，效果以假乱真。图片世界模型再次…

程序猿
2025年12月2日 • 科技
0000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 科技
2000
实战部署：动态时序网络用于端到端检测和跟踪

本文经自动驾驶之心公众号授权转载，转载请联系出处。相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型，可以首…

程序猿
2025年12月2日 • 科技
0000
自动驾驶中的交通规则识别问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 自动驾驶中的交通规则识别问题，需要具体代码示例摘要：自动驾驶技术正在迅速发展，并且在未来有望实现商业化应用。然而，与此同时，自动驾驶车辆面临着一个重要的挑战，即交通规则的识别和遵守问题。本文将…

程序猿
2025年12月1日 • 科技
0000
BAT方法：AAAI 2024首个多模态目标追踪通用双向适配器

目标跟踪是计算机视觉的基础任务之一，近年来，单模态（RGB）目标跟踪取得了重大进展。然而，由于单一成像传感器的限制，我们需要引入多模态图像（如RGB、红外等）来弥补这一缺陷，以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息，增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

程序猿
2025年12月1日 • 科技
1000
自动驾驶与轨迹预测看这一篇就够了！

轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富，需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构（cnn&gnn&…

程序猿
2025年12月1日 • 科技
0000
微软6页论文爆火：三进制LLM，真香！

这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM，都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的…

程序猿
2025年12月1日 • 科技
0000
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

在标准的UNet结构中，long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。然而，在一些著名的扩散模型工作中，比如Imagen， Score-based generati…

程序猿
2025年12月1日 • 科技
0000
陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队刚刚发布了一种新的llm上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。最重要的是，在这个过程中，只需要原来1/6的内存，模型就获得了10倍吞吐量。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSee…

程序猿
2025年12月1日 • 科技
0000
ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！例如来一句：头发凌乱的女性，在卧室里。Woman with messy hair, in the bedroo…

程序猿
2025年12月1日 • 科技
0000

发表回复

登录后才能评论