QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

写在前面 & 个人理解

时序融合是提升自动驾驶3d目标检测感知能力的有效途径,但目前的方法在实际自动驾驶场景中应用存在成本开销等问题。最新研究文章《基于查询的显式运动时序融合用于3d目标检测》在neurips 2023中提出了一种新的时序融合方法,将稀疏查询作为时序融合的对象,并利用显式运动信息来生成时序注意力矩阵,以适应大规模点云的特性。该方法由华中科技大学和百度的研究者提出,被称为qtnet:基于查询和显式运动的3d目标检测时序融合方法。实验证明,qtnet能够在几乎没有成本开销的情况下为点云、图像和多模态检测器带来一致的性能提升

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

论文链接:https://openreview.net/pdf?id=gySmwdmVDF代码链接:https://github.com/AlmoonYsl/QTNet

问题背景

得益于现实世界的时间连续性,时间维度上的信息可以使得感知信息更加完备,进而提高目标检测的精度和鲁棒性,例如时序信息可以帮助解决目标检测中的遮挡问题、提供目标的运动状态和速度信息、提供目标的持续性和一致性信息。因此如何高效地利用时序信息是自动驾驶感知的一个重要问题。现有的时序融合方法主要分为两类。一类是基于稠密的BEV特征进行时序融合(点云/图像时序融合都适用),另一类则是基于3D Proposal特征进行时序融合 (主要针对点云时序融合方法)。对于基于BEV特征的时序融合,由于BEV上超过90%的点都是背景,而该类方法没有更多地关注前景对象,这导致了大量没有必要的计算开销和次优的性能。对于基于3D Proposal的时序融合算法,其通过耗时的3D RoI Pooling来生成3D Proposal特征,尤其是在目标物较多,点云数量较多的情况下,3D RoI Pooling所带来的开销在实际应用中往往是难以接受的。此外,3D Proposal 特征严重依赖于Proposal的质量,这在复杂场景中往往是受限的。因此,目前的方法都难以以极低开销的方式高效地引入时序融合来增强3D目标检测的性能。

如何实现高效的时序融合?

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

DETR是一种十分优秀的目标检测范式,其提出的Query设计和Set Prediction思想有效地实现了无需任何后处理的优雅检测范式。在DETR中,每个Query代表一个物体,并且Query相对于稠密的特征来说十分稀疏(一般Query的数目会被设置为一个相对较少的固定数目)。如果以Quey作为时序融合的对象,那计算开销的问题自然下降一个层次。因此DETR的Query范式是一种天然适合于时序融合的范式。时序融合需要构建多帧之间的物体关联,以此实现时序上下文信息的综合。那么主要问题在于如何构建基于Query的时序融合pipeline和两帧间的Query建立关联。

由于在实际场景中自车往往存在的运动,因此两帧的点云/图像往往是坐标系不对齐的,并且实际应用中不可能在当前帧对所有历史帧重新forward一次网络来提取对齐后点云/图像的特征。因此本文采用Memory Bank的方式来只存储历史帧得到的Query特征及其对应的检测结果,以此来避免重复计算。由于点云和图像在描述目标特征上存在很大差异,通过特征层面来构建统一时序融合方法是不太可行的。然而,在三维空间下,无论点云还是图像模态都能通过目标的几何位置/运动信息关系来刻画相邻帧之间的关联关系。因此,本文采用物体的几何位置和对应的运动信息来引导两帧间物体的注意力矩阵。

方法介绍

QTNet的核心思想是利用Memory Bank存储在历史帧中获得的Query特征及其对应的检测结果,以避免重复计算历史帧的开销。在两帧Query之间,使用运动引导的注意力矩阵进行关系建模

总体框架

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

如框架图所示,QTNet包含3D DETR结构的3D目标检测器(LiDAR、Camera和多模态均可),Memory Bank和用于时序融合的Motion-guided Temporal Modeling Module (MTM)。QTNet通过DETR结构的3D目标检测器获取对应帧的Query特征及其检测结果,并将得到的Query特征及其检测结果以先进先出队列(FIFO)的方式送入Memory Bank中。Memory Bank的数目设置为时序融合所需的帧数。对于时序融合,QTNet从Memory Bank中从最远时刻开始读取数据,通过MTM模块以迭代的方式从  帧到  帧融合MemoryBank中的所有特征以用来增强当前帧的Query特征,并根据增强后的Query特征来Refine对应的当前帧的检测结果。

具体而言,QTNet在  帧融合  和  帧的Query特征  和 ,并得到增强后的 帧的Query特征 。接着,QTNet再将  与  帧的Query特征进行融合。以此通过迭代的方式不断融合至  帧。注意,这里从  帧到  帧所使用的MTM全部是共享参数的。

运动引导注意力模块

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

MTM使用物体的中心点位置来显式生成  帧Query和  帧Query的注意力矩阵。给定ego pose矩阵  和 、物体中心点、速度。首先,MTM使用ego pose和物体预测的速度信息将上一帧的物体移动到下一帧并对齐两帧的坐标系:

接着通过  帧物体中心点和  帧经过矫正的中心点构建欧式代价矩阵 。此外,为了避免可能发生的错误匹配,本文使用类别  和距离阈值  构造注意力掩码 :

将代价矩阵转换成注意力矩阵是最终目标

将注意力矩阵  作用在  帧的增强后的Query特征  来聚合时序特征以增强  帧的Query特征:

最终增强后的  帧的Query特征  经过简单的FFN来Refine对应的检测结果,以实现增强检测性能的作用。

解耦时序融合结构

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

观察到时序融合的分类和回归学习存在不平衡问题,一种解决办法是分别为分类和回归设计时序融合分支。然而,这种解耦方式会增加更多的计算成本和延迟,对于大多数方法而言不可接受。相比之下,QTNet利用高效的时序融合设计,其计算成本和延迟可以忽略不计,与整个3D检测网络相比表现更优。因此,本文采取了分类和回归分支在时序融合上的解耦方式,以在可忽略不计的成本情况下取得更好的检测性能,如图所示

实验效果

QTNet在点云/图像/多模态上实现一致涨点

在nuScenes数据集上进行验证后发现,QTNet在不使用未来信息、TTA和模型集成的情况下,取得了68.4的mAP和72.2的NDS,达到了SOTA性能。与使用了未来信息的MGTANet相比,在3帧时序融合的情况下,QTNet的性能优于MGTANet,分别提高了3.0的mAP和1.0的NDS

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

此外,本文也在多模态和基于环视图的方法上进行了验证,在nuScenes验证集上的实验结果证明了QTNet在不同模态上的有效性。

序列猴子开放平台 序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0 查看详情 序列猴子开放平台

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

对于实际应用来说,时序融合的成本开销非常重要。本文对QTNet在计算量、时延和参数量三个方面进行了分析实验。结果表明,与整个网络相比,QTNet对于不同基准线所带来的计算开销、时间延迟和参数量都可以忽略不计,尤其是计算量仅仅使用了0.1G FLOPs(LiDAR基准线)

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

不同时序融合范式比较

为了验证基于Query的时序融合范式的优越性,我们选择了具有代表性的不同前沿时序融合方法进行比较。通过实验结果发现,基于Query范式的时序融合算法相较于基于BEV和基于Proposal范式更加高效。在仅使用0.1G FLOPs和4.5ms的开销下,QTNet表现出更加优秀的性能,同时整体参数量仅为0.3M

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

消融实验

本研究在nuScenes验证集上进行了基于LiDAR baseline的消融实验,通过3帧时序融合的方式。实验结果表明,简单地使用Cross Attention来建模时序关系并没有明显的效果。然而,当使用MTM后,检测性能显著提升,这说明在大规模点云下显式运动引导的重要性。此外,通过消融实验还发现,QTNet的整体设计非常轻量且高效。在使用4帧数据进行时序融合时,QTNet的计算量仅为0.24G FLOPs,延迟也只有6.5毫秒

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

MTM的可视化

为了探究MTM优于Cross Attention的原因,本文将两帧间物体的注意力矩阵进行可视化,其中相同的ID代表两帧间同一个物体。可以发现由MTM生成的注意力矩阵(b)比Cross Attention生成的注意力矩阵(a)更加具有区分度,尤其是小物体之间的注意力矩阵。这表明由显式运动引导的注意力矩阵通过物理建模的方式使得模型更加容易地建立起两帧间物体的关联。本文仅仅只是初步探索了在时序融合中以物理方式建立时序关联问题,对于如何更好构建时序关联仍然是值得探索的。

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

检测结果的可视化

本文以场景序列为对象进行了检测结果的可视化分析。可以发现左下角的小物体从  帧开始快速远离自车,这导致baseline在  帧漏检了该物体,然而QTNet在  帧仍然可以检测到该物体,这证明了QTNet在时序融合上的有效性。

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

本文总结

本文针对目前3D目标检测任务提出了更加高效的基于Query的时序融合方法QTNet。其主要核心有两点:一是使用稀疏Query作为时序融合的对象并通过Memory Bank存储历史信息以避免重复的计算,二是使用显式的运动建模来引导时序Query间的注意力矩阵的生成,以此实现时序关系建模。通过这两个关键思路,QTNet能够高效地实现可应用于LiDAR、Camera、多模态的时序融合,并以可忽略不计的成本开销一致性地增强3D目标检测的性能。

QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)

需要重新改写的内容是:原文链接:https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ

以上就是QTNet:全新时序融合方案解决方案,适用于点云、图像和多模态检测器(NeurIPS 2023)的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/628380.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 10:03:24
下一篇 2025年11月11日 10:04:35

相关推荐

  • 当贝X5S怎样看3D

    当贝X5S观看3D影片无立体效果时,需开启3D模式并匹配格式:1. 播放3D影片时按遥控器侧边键,进入快捷设置选择3D模式;2. 根据片源类型选左右或上下3D格式;3. 可通过首页下拉进入电影专区选择3D内容播放;4. 确认片源为Side by Side或Top and Bottom格式,并使用兼容…

    2025年12月6日 软件教程
    100
  • 检测SqlServer服务器CPU是否瓶颈

    检测SqlServer服务器CPU是否瓶颈 初次写博文,分享个人心得,欢迎大虾小虾来拍砖。 系统自带的性能监视器 在开始命令框中输入perfmon按enter键即可打开性能监视器 可以通过监视 % Processor Time 的值察看cpu是否遇到瓶颈,此值最好不要超出80% 如果达到了比 检测S…

    2025年12月2日
    000
  • 《无限世界》【宇宙奥秘】盛大开服 四大职业任您挑选

    2024年11月2日14:00,《无限世界》新服揭幕,期待您的探索!领取媒体礼包与享受新服专享活动,就可以体验畅玩多元宇宙的乐趣!快来精选只属于您的职业吧!以下是每个职业的简要介绍: 一、科幻战士(特种兵)  特点:科幻战士拥有强大的科技装备和高超的战斗技巧。他们擅长使用各种高科技武器,如激光枪、电…

    2025年12月2日 行业动态
    000
  • iOS 18可检测是否正使用慢速充电器 网友:最高27W没必要

    6月12日消息,苹果ios 18已正式发布,除了加入更多充电限制选项外,还新增一项功能,可以检测用户是否正在使用慢速充电器为设备充电。 在iOS 18的设置应用中,iPhone 15用户可以在「电池」-「充电」选项中找到新的充电限制设置。 以往,iOS只允许用户将充电限制设置为80%,而现在新增了8…

    2025年12月2日 行业动态
    000
  • 国产屏下 3D 人脸识别技术进入测试阶段 华为还是小米首发?

    7 月 14 日,”数码闲聊站” 消息称,有厂商正在实验室中对国产屏下 3d 人脸识别技术进行版本测试,这表明该技术正逐步迈向成熟,未来有望在智能手机领域实现应用。 近年来,屏下 3D 人脸识别技术成为智能手机设计的重要突破,其目标是将 3D 人脸识别模块完全置于屏幕下方,从…

    2025年12月2日
    000
  • win7系统如何检测和清理磁盘

    php小编草莓教你轻松检测和清理磁盘,释放更多空间!只需几步,即可快速扫描磁盘空间使用情况,找出占用空间最大的文件和文件夹,并安全地删除不需要的文件,让你的电脑运行更顺畅。告别磁盘空间不足的烦恼,尽享流畅操作体验! 在使用Win7系统的过程中,随着时间的推移,磁盘上会积累大量的临时文件、垃圾文件和无…

    2025年12月2日 电脑教程
    000
  • 3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战

    作为点集合的点云有望通过3d重建、工业检测和机器人操作中,在获取和生成物体的三维(3d)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获得的两个点云对齐并匹配。这篇综述介绍了点云配准的概述和基本原理,对各种方法进行了系统的分类和比较,并解…

    2025年12月1日 科技
    000
  • 荣耀 Magic8 Pro 真机实拍:独享 3D 人脸识别的骁龙 8 至尊旗舰

    9 月 30 日消息,知名数码博主“数码闲聊站”在社交平台曝光了荣耀 magic8 pro 的实机图。该机型将成为同期唯一搭载第五代骁龙 8 至尊版并支持 3d 人脸识别的旗舰手机,预计将于 10 月正式亮相。 图片来源:微博 @数码闲聊站 从真机图可见,荣耀 Magic8 Pro 采用等深微曲面屏…

    2025年11月30日 硬件教程
    000
  • 检测类在jQuery中的存在与应用

    使用jQuery检测类是否存在的方法及应用 在Web开发中,经常会使用jQuery来操作DOM元素以及处理交互效果。有时候我们需要判断一个元素是否具有某个特定的类,这时候就可以使用jQuery提供的方法来检测类是否存在。 一般情况下,我们可以通过hasClass()方法来检测一个元素是否具有指定的类…

    2025年11月28日 web前端
    000
  • 《无限世界》多元宇宙探险之旅 “神将集结”服务器明盛启

    2025年1月11日14:00,备受期待的全球首款多元宇宙题材大型网游《无限世界》正式开启!全新服务器火热上线,百万玩家蓄势待发,准备开启这场史诗级的跨时空冒险之旅!官网现已开放手机预约、角色预创建和预充值,快来加入我们吧! 《无限世界》巧妙融合了古老魔法、现代科技和星际文明,构建出一个充满无限可能…

    2025年11月28日 行业动态
    000
  • AAAI2024:Far3D – 创新的直接干到150m视觉3D目标检测思路

    最近在 arxiv 上阅读到一篇关于纯视觉环视感知的最新研究,该研究基于 petr 系列方法,并专注于解决远距离目标检测的纯视觉感知问题,将感知范围扩大到150米。这篇论文的方法和结果对我们来说有很大的参考价值,所以我尝试着对其进行解读 原标题:Far3D: Expanding the Horizo…

    2025年11月27日 科技
    000
  • 帮林志颖修脸的3D重建,用两块A100加二维CNN就可以实现!

    三维重建(3D Reconstruction)技术一直是计算机图形学和计算机视觉领域的一个重点研究领域。 简单说,三维重建就是基于二维图像,恢复三维场景结构。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 据说,林志颖出车祸后,他的面部重建…

    2025年11月27日
    000
  • 离谱!美国教授用ChatGPT「证实」论文抄袭,半个班学生惨遭挂科

    离了个大谱! 辛辛苦苦码出的毕业论文,居然被教授拿去放在ChatGPT里检测,然后就被判定为抄袭? 教授因此挂掉了全班一半的人,然后学校还因此拒发毕业证? 教授:被ChatGPT认领的,都得0分 最近,在得克萨斯农工大学(Texas A&M),发生了这样一件令人哭笑不得的事。 为了检测学生提…

    2025年11月27日 科技
    000
  • 欧普泰董事长王振:AI点亮光伏检测创新之路

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 欧普泰设备制造车间 公司供图 位于上海普陀区天地软件园的欧普泰,是一家聚焦%ignore_a_1%行业,以AI视觉检测系统赋能解决方案为核心的北交所上市公司。公司董事长王振日前在接受中国证券报记…

    2025年11月27日 科技
    000
  • 利用ThinkPHP6实现网站安全检测

    随着互联网的不断发展,越来越多的网站涌现出来,但与此同时,网站的安全问题也愈发严重。黑客攻击、恶意软件、sql注入等安全漏洞令网站运营商头疼不已。为了保证网站的安全性,网站建设和运营过程中的安全检测也显得尤为重要。本文将介绍如何利用thinkphp6实现网站安全检测,帮助网站运营者进一步提升网站安全…

    2025年11月26日
    100
  • 使用SAM实现可靠的多模态3D检测的RoboFusion

    论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器旨在研究安全可靠的自动驾驶感知系统。尽管它们在干净的基准数据集上取得了最先进的性能,但往往忽略了现实世界环境的复杂性和恶劣条件。与此同时,随着视觉基础模型(VFM)的出现,提高多模态三维检测的鲁棒性和…

    2025年11月26日 科技
    000
  • OccNeRF:完全无需激光雷达数据监督

    写在前面&笔者的个人总结 近年来,%ignore_a_1%领域的3D占据预测任务因其独特的优势受到学术界和工业界的广泛关注。该任务通过重建周围环境的3D结构,为自动驾驶的规划和导航提供详细信息。然而,目前主流的方法大多依赖于基于激光雷达(LiDAR)点云生成的标签来监督网络训练。在最近的Oc…

    2025年11月26日 科技
    000
  • 牛津大学最新!Mickey:3D中的2D图像匹配SOTA!(CVPR’24)

    写在前面 项目链接:https://nianticlabs.github.io/mickey/ 给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,…

    2025年11月26日 科技
    000
  • OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

    从一个新颖的3d mllm架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3d,然后将其输入llm。 题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning a…

    2025年11月26日 科技
    000
  • 一个简单的MYSQL检测实例代码

    学习shell编程,做了一个%ign%ignore_a_1%re_a_1%MYSQL时候启动的脚本,刚学SHELL没几天,欢迎大家给意见和建议 # !bin/bashMYSQLPID=’/var/run/mysqld/mysqld.pid’;if [ ! -f $MYSQLPID ] ; then …

    数据库 2025年11月26日
    000

发表回复

登录后才能评论
关注微信