AAAI2024:Far3D – 创新的直接干到150m视觉3D目标检测思路

最近在 arxiv 上阅读到一篇关于纯视觉环视感知的最新研究,该研究基于 petr 系列方法,并专注于解决远距离目标检测的纯视觉感知问题,将感知范围扩大到150米。这篇论文的方法和结果对我们来说有很大的参考价值,所以我尝试着对其进行解读

原标题:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文链接:https://arxiv.org/abs/2308.09616
作者单位:北京理工大学 & 旷视科技

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

任务背景

三维物体检测在理解自动驾驶的三维场景方面发挥着重要作用,其目的是对自车周围的物体进行精确定位和分类。纯视觉环视感知方法具有成本低、适用性广等优点,已取得显著进展。然而,它们大多侧重于近距离感知(例如,nuScenes的感知距离约为 50 米),对远距离探测领域的探索较少。检测远距离物体对于实际驾驶中保持安全距离至关重要,尤其是在高速或复杂路况下。

近来,从环视图像中进行三维物体检测取得了显著进展,其部署成本较低。然而,大多数研究主要集中在近距离感知范围,对远距离检测的研究较少。将现有方法直接扩展到覆盖长距离会面临计算成本高、收敛性不稳定等挑战。为了解决这些局限性,本文提出了一种新的基于稀疏查询的框架,称为 Far3D。

论文思路

根据中间表征,现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

图1:Argoverse 2 数据集上,3D 检测和 2D 检测的性能对比。

在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战。

首先是召回性能较差。由于 query 在 3D 空间分布的稀疏性,在远距离范围只能产生少量匹配的 positive query。如上图所示,3D 检测的召回率较低,而现有 2D 检测的召回率要高得多,两者之间存在明显的性能差距。因此,利用高质量的 2D 物体先验来改进 3D query 是一种很有潜力的方法,它有利于实现物体的精确定位和全面覆盖。其次,直接引入 2D 检测结果来帮助 3D 检测会面临误差传播的问题。如下图所示,两种主要来源是 1) 由于深度预测不准的物体定位误差;2) 随着距离的增大,视锥变换中的 3D 位置误差也会增大。这些 noisy query 会影响训练的稳定性,需要有效的去噪方法来优化。此外,在训练过程中,模型会表现出对密集的近距离物体过度拟合的倾向,而忽略稀疏分布的远距离物体。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

为了应对以上提到的问题,本文采取了以下设计方案:

除了从数据集中学到的 3D global query 外,还引入了由 2D 检测结果生成的 3D adaptive query。具体地,首先利用 2D 检测器和深度预测网络得到 2D 框和对应深度,再通过空间变换投射到 3D 空间,作为 3D adaptive query 的初始化。为了适应不同距离的物体的尺度不同,设计了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特征交互,有利于不同距离物体的特征捕捉。比如,远处物体需要大分辨率的特征,而近处则不同。模型通过这种设计可以自适应地与特征交互。设计了一种称为 Range-modulated 3D Denoising 的策略,以减轻 query 错误传播和收敛缓慢的问题。考虑到不同距离的 query 回归难度不同,noisy query 根据真实框的距离和尺度来调整。将 GT 附近的多组 noisy query 输入解码器,来分别实现重建3D 真实框(对于正样本)和舍弃负样本的作用。

主要贡献

本文提出了一种新的基于稀疏 query 的检测框架,它利用高质量的 2D object prior 来生成 3D adaptive query, 从而扩大三维检测的感知范围。本文设计了 Perspective-aware Aggregation 模块,它从不同尺度和视角聚合视觉特征,以及一个基于目标距离的 3D Denoising 策略,来解决 query 误差传播和框架收敛问题。在远距离的 Argoverse 2 数据集的实验结果表明,Far3D 超越了此前的环视方法,并优于几种基于激光雷达的方法。并且在 nuScenes 数据集上验证了其通用性。

模型设计

Far3D 流程概览:

将环视图像输入主干网络和 FPN 层,编码得到 2D 图像特征,并将其与相机参数进行编码。利用 2D 检测器和深度预测网络,生成可靠的 2D 物体框及其相应深度,然后通过相机变换投影到 3D 空间。生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。更进一步,该模型可通过长时序的 query 传播实现时序建模。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

Perspective-aware Aggregation:

为了给远距离检测模型引入多尺度特征,本文应用了 3D spatial deformable attention。它先在 query 对应的 3D 位置附近进行偏移采样,而后通过 3D-2D 视图变换聚合图像特征。这种方法替代 PETR 系列中的 global attention 的优势在于,计算量可以大幅降低。具体地,对于 3D 空间中的每个 query 的参考点,模型会学习其周围的 M 个采样偏移,并将这些偏移点投影到不同的 2D 视图特征中。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

其后,3D query 与投影得到的采样特征交互。通过这种方式,来自不同视角和尺度的各种特征将通过考虑其相对重要性汇聚到三维查询中。

Range-modulated 3D Denoising:

不同距离的 3D query 具有不同的回归难度,这不同于现有的 2D Denoising 方法(如 DN-DETR, 通常同等对待的2D query)。难度差异来自于 query 匹配密度和误差传播。一方面,与远处物体相对应的 query 匹配度低于近处物体。另一方面,在 3D adaptive query 中引入二维先验时,2D 物体框的微小误差会被放大,更不用说这种影响会随着物体距离的增加而增大。因此,GT 框附近的一些 query 可被视为 positive query,而其他有明显偏差则应被视为 negative query。本文提出一种 3D Denoising 方法,旨在优化那些正样本,并直接舍弃负样本。

具体而言,作者通过同时添加正样本和负样本组来构建基于 GT 的嘈杂查询。对于这两种类型,都会根据物体的位置和大小应用随机噪声,以促进远距离感知中的去噪学习。具体来说,正样本是在3D框内的随机点,而负样本则在GT上施加更大的偏移,偏移范围随着物体的距离变化。这种方法可以在训练过程中模拟有噪声的候选正样本和误报样本

STORYD STORYD

帮你写出让领导满意的精美文稿

STORYD 164 查看详情 STORYD

实验结果

Far3D 在 150m 感知范围的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以达到几个 Lidar-based 方法的性能,展现了纯视觉方法的潜力。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

为了验证泛化性能,作者也在 nuScenes 数据集上做了实验,表明其在验证集和测试集上都达到 SoTA 性能。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

经过消融实验,我们得出了以下结论:3D自适应查询、透视感知聚合和范围调节的3D降噪各自都具有一定的增益

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

论文思考

Q:这篇文章有什么 novelty?
A:主要 novelty 是解决远距离场景的感知问题。现有方法拓展到远距离场景有许多问题,计算成本和收敛困难等。本文作者为这个任务提出了一个高效的框架。尽管单拎出来各个模块似曾相识,它们都是服务于远处目标的检测的,目标明确。

Q:相比 BevFormer v2, MV2D 有什么区别?
A: MV2D 主要是依赖 2D anchor 去取对应的特征对 3D 进行了绑定,但是没有显式的深度估计,所以对于远距离物体来说不确定性就会比较大,然后难收敛;BevFormer v2 主要解决的是2D backbone与 3D 任务场景之间的domain gap,一般 2D 识别任务上预训练的 backbone 察觉 3D 场景的能力存在不足,并没有探索远距离任务中的问题。

Q: 时序上能否改进,如 query propagation 再加上 feature propagation?
A: 理论上是可行的,但是实际应用中应该考虑performance-efficiency tradeoff。

Q: 还有哪些需要改进的地方?
A: 在长尾问题和远距离评测指标上都值得改进。在 Argoverse 2 这样的 26 类目标上,模型在长尾类别上表现不佳,最终也会降低平均精度,这一点尚未被探索。另一方面,使用统一的指标来评估远距离和近距离物体可能并不合适,这就强调了对实用的动态评估标准的需求,以适应现实世界的不同场景。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

原文链接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg

以上就是AAAI2024:Far3D – 创新的直接干到150m视觉3D目标检测思路的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/850487.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月27日 17:15:26
下一篇 2025年11月27日 17:23:10

相关推荐

  • 检测SqlServer服务器CPU是否瓶颈

    检测SqlServer服务器CPU是否瓶颈 初次写博文,分享个人心得,欢迎大虾小虾来拍砖。 系统自带的性能监视器 在开始命令框中输入perfmon按enter键即可打开性能监视器 可以通过监视 % Processor Time 的值察看cpu是否遇到瓶颈,此值最好不要超出80% 如果达到了比 检测S…

    2025年12月2日
    000
  • 人形机器人首次打通视觉感知与运动断层,UC 伯克利华人博士让宇树 G1 现场演示

    不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上! 还能直接解锁 ” 跨过箱子 “、” 敲门 ” 等任务 ~ 这是来自 UC 伯克利、卡内基梅隆大学等团队的最新研究成果LeVERB 框架—— 基于模拟数据训练实现零样本部署,让人形…

    2025年12月2日 硬件教程
    000
  • LeCun对自动驾驶独角兽的造假行为深感失望

    你以为这是一个普通的自动驾驶视频吗? ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 这个内容需要重新写成中文,而不改变原来的意思 没有一帧是“真的”。 图片 不同路况、各种天气,20多种情况都能模拟,效果以假乱真。 图片 世界模型再次…

    2025年12月2日 科技
    000
  • 2025 视觉健康推荐产品:AOC 智能办公本 10W2

    2025 年 7 月 16 日,由瑞物评测室与中关村在线联合主办的第二届健康显示大会如期举行。本次大会携手中国电研威凯公司及多家显示行业领军企业,共同修订并发布了《显示设备金 e 护眼认证》规范。 在当前护眼技术竞争日益激烈的背景下,不少品牌和产品凭借前沿科技与创新设计崭露头角——它们始终坚持以用户…

    2025年12月2日
    000
  • iOS 18可检测是否正使用慢速充电器 网友:最高27W没必要

    6月12日消息,苹果ios 18已正式发布,除了加入更多充电限制选项外,还新增一项功能,可以检测用户是否正在使用慢速充电器为设备充电。 在iOS 18的设置应用中,iPhone 15用户可以在「电池」-「充电」选项中找到新的充电限制设置。 以往,iOS只允许用户将充电限制设置为80%,而现在新增了8…

    2025年12月2日 行业动态
    000
  • win7系统如何检测和清理磁盘

    php小编草莓教你轻松检测和清理磁盘,释放更多空间!只需几步,即可快速扫描磁盘空间使用情况,找出占用空间最大的文件和文件夹,并安全地删除不需要的文件,让你的电脑运行更顺畅。告别磁盘空间不足的烦恼,尽享流畅操作体验! 在使用Win7系统的过程中,随着时间的推移,磁盘上会积累大量的临时文件、垃圾文件和无…

    2025年12月2日 电脑教程
    000
  • 3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战

    作为点集合的点云有望通过3d重建、工业检测和机器人操作中,在获取和生成物体的三维(3d)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获得的两个点云对齐并匹配。这篇综述介绍了点云配准的概述和基本原理,对各种方法进行了系统的分类和比较,并解…

    2025年12月1日 科技
    000
  • 用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

    用视觉来做prompt,会带来怎样的体验? 只需在图中随意勾画一下,即可立即标出相同的类别! ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。 有了新的目…

    2025年12月1日 科技
    000
  • 检测类在jQuery中的存在与应用

    使用jQuery检测类是否存在的方法及应用 在Web开发中,经常会使用jQuery来操作DOM元素以及处理交互效果。有时候我们需要判断一个元素是否具有某个特定的类,这时候就可以使用jQuery提供的方法来检测类是否存在。 一般情况下,我们可以通过hasClass()方法来检测一个元素是否具有指定的类…

    2025年11月28日 web前端
    000
  • 计算机视觉中的人体姿态估计问题

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 计算机视觉中的人体姿态估计问题,需要具体代码示例 人体姿态估计是计算机视觉领域的重要研究方向,其目标是从图像或视频中准确地获取人体的姿态信息,包括关节位置、关节角度等。人体姿态估计在许多应用领域…

    2025年11月28日 科技
    200
  • NeRF是什么?基于NeRF的三维重建是基于体素吗?

    1介绍 神经辐射场(nerf)是深度学习和计算机视觉领域的一个相当新的范式。eccv 2020论文《nerf:将场景表示为视图合成的神经辐射场》(该论文获得了最佳论文奖)中介绍了这项技术,该技术自此大受欢迎,迄今已获得近800次引用[1]。该方法标志着机器学习处理3d数据的传统方式发生了巨大变化。 …

    2025年11月28日 科技
    000
  • 美图AI视觉创作工具上新,涂抹+关键词,变废为宝!

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ STORYD 帮你写出让领导满意的精美文稿 137 查看详情 整理  |  星璇 出品 | 51CTO技术栈(微信号:blog51cto) 美图公司最近发布了AI视觉创作工具WHEE,其中新增了…

    2025年11月27日 科技
    000
  • 离谱!美国教授用ChatGPT「证实」论文抄袭,半个班学生惨遭挂科

    离了个大谱! 辛辛苦苦码出的毕业论文,居然被教授拿去放在ChatGPT里检测,然后就被判定为抄袭? 教授因此挂掉了全班一半的人,然后学校还因此拒发毕业证? 教授:被ChatGPT认领的,都得0分 最近,在得克萨斯农工大学(Texas A&M),发生了这样一件令人哭笑不得的事。 为了检测学生提…

    2025年11月27日 科技
    000
  • 欧普泰董事长王振:AI点亮光伏检测创新之路

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 欧普泰设备制造车间 公司供图 位于上海普陀区天地软件园的欧普泰,是一家聚焦%ignore_a_1%行业,以AI视觉检测系统赋能解决方案为核心的北交所上市公司。公司董事长王振日前在接受中国证券报记…

    2025年11月27日 科技
    000
  • 利用ThinkPHP6实现网站安全检测

    随着互联网的不断发展,越来越多的网站涌现出来,但与此同时,网站的安全问题也愈发严重。黑客攻击、恶意软件、sql注入等安全漏洞令网站运营商头疼不已。为了保证网站的安全性,网站建设和运营过程中的安全检测也显得尤为重要。本文将介绍如何利用thinkphp6实现网站安全检测,帮助网站运营者进一步提升网站安全…

    2025年11月26日
    100
  • 一个简单的MYSQL检测实例代码

    学习shell编程,做了一个%ign%ignore_a_1%re_a_1%MYSQL时候启动的脚本,刚学SHELL没几天,欢迎大家给意见和建议 # !bin/bashMYSQLPID=’/var/run/mysqld/mysqld.pid’;if [ ! -f $MYSQLPID ] ; then …

    数据库 2025年11月26日
    000
  • 助力英雄联盟新纪录!三星玄龙骑士打造电竞视觉新高度

    在英雄联盟赛场上书写传奇的选手 faker 带领 t1 战队晋级 2024 全球总决赛,这也是他第 9 次晋级全球总决赛,刷新了英雄联盟职业联赛的纪录。在 faker 卓越的技术、冷静的头脑和不懈的努力背后,还有三星玄龙骑士电竞显示器成为他征战沙场的得力助手。 1. 打造电竞巅峰:电竞显示器专门为游…

    2025年11月19日 硬件教程
    000
  • 中国电信在 ACM MM 发表突破性论文:推动视觉智能

    近日,中国电信在边缘视觉感知技术方面实现了重大突破。其科研团队创新性地提出了一种名为 hdcfn(haze distribution-aware cross-modal fusion network)的雾浓度感知跨模态融合算法,该项研究成果得到了国际学术界的广泛认可,并被多媒体领域最具影响力的会议之…

    2025年11月15日
    000
  • 更深层的理解视觉Transformer, 对视觉Transformer的剖析

    本文为经过自动驾驶之心公众号授权转载,请在转载时与出处联系 写在前面&&笔者的个人理解 目前,基于Transformer结构的算法模型已经在计算机视觉(CV)领域产生了极大的影响。它们在许多基本的计算机视觉任务上超越了以前的卷积神经网络(CNN)算法模型。以下是我找到的最新的不同基础…

    2025年11月11日 科技
    000
  • QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

    写在前面 & 个人理解 时序融合是提升自动驾驶3d目标检测感知能力的有效途径,但目前的方法在实际自动驾驶场景中应用存在成本开销等问题。最新研究文章《基于查询的显式运动时序融合用于3d目标检测》在neurips 2023中提出了一种新的时序融合方法,将稀疏查询作为时序融合的对象,并利用显式运动…

    2025年11月11日 科技
    000

发表回复

登录后才能评论
关注微信