NeRF在BEV泛化性能方面的突破:首个跨域开源代码成功实现Sim2Real

写在前面&笔者的个人总结

鸟瞰图(Bird eye’s view, BEV)检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测,这导致了这些算法过拟合于不变的相机内参(相机类型)和外参(相机摆放方式)。本文提出了一种基于隐式渲染的BEV检测框架,能够解决未知域的物体检测问题。该框架通隐式渲染来建立物体3D位置和单个视图的透视位置关系,这可以用来纠正透视偏差。此方法在领域泛化(DG)和无监督领域适应(UDA)方面取得了显著的性能提升。该方法首次尝试了只用虚拟数据集上进行训练在真实场景下进行评测BEV检测,可以打破虚实之间的壁垒完成闭环测试。

论文链接:https://arxiv.org/pdf/2310.11346.pdf代码链接:https://github.com/EnVision-Research/Generalizable-BEV

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

什么?nerf还能提升bev泛化性能!首个bev跨域开源代码并首次完成sim2real!

BEV检测域泛化问题背景

多相机检测是指利用多台摄像机对三维空间中的物体进行检测和定位的任务。通过结合来自不同视点的信息,多摄像头3D目标检测可以提供更准确和鲁棒的目标检测结果,特别是在某些视点的目标可能被遮挡或部分可见的情况下。近年来,鸟瞰图检测(Bird eye’s view, BEV)方法在多相机检测任务中得到了极大的关注。尽管这些方法在多相机信息融合方面具有优势,但当测试环境与训练环境存在显著差异时,这些方法的性能可能会严重下降。

目前,大多数BEV检测算法都是在相同的数据集上进行训练和评估,这导致这些算法对相机内外参数和城市道路条件的变化过于敏感,过拟合问题严重。然而,在实际应用中,BEV检测算法常常需要适应不同的新车型和新摄像头,这导致这些算法失效。因此,研究BEV检测的泛化性非常重要。此外,闭环仿真对于无人驾驶也非常重要,但目前只能在虚拟引擎(如Carla)中进行评估。因此,有必要解决虚拟引擎和真实场景之间的域差异问题

域泛化(domain generalization, DG)和无监督域自适应(unsupervised domain adaptation, UDA)是缓解分布偏移的两个有前途的方向。DG方法经常解耦和消除特定于领域的特征,从而提高不可见领域的泛化性能。对于UDA,最近的方法通过生成伪标签或潜在特征分布对齐来缓解域偏移。然而,如果不使用来自不同视点、相机参数和环境的数据,纯视觉感知学习与视角和环境无关的特征是非常具有挑战性的。

观察表明单视角(相机平面)的2D检测往往比多视角的3D目标检测具有更强的泛化能力,如图所示。一些研究已经探索了将2D检测整合到BEV检测中,例如将2D信息融合到3D检测器中或建立2D-3D一致性。二维信息融合是一种基于学习的方法,而不是一种机制建模方法,并且仍然受到域迁移的严重影响。现有的2D-3D一致性方法是将3D结果投影到二维平面上并建立一致性。这种约束可能损害目标域中的语义信息,而不是修改目标域的几何信息。此外,这种2D-3D一致性方法使得所有检测头的统一方法具有挑战性。

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

本论文的的贡献总结

本论文提出了一种基于视角去偏的广义BEV检测框架,该框架不仅可以帮助模型学习源域中的视角和上下文不变特征,还可以利用二维检测器进一步纠正目标域中的虚假几何特征。本文首次尝试在BEV检测上研究无监督域自适应,并建立了一个基准。在UDA和DG协议上都取得了最先进的结果。本文首次探索了在没有真实场景注释的虚拟引擎上进行训练,以实现真实世界的BEV检测任务。

BEV检测域泛化问题定义

问题定义

研究主要围绕增强BEV检测的泛化。为了实现这一目标,本文探索了两个广泛具有实际应用价值的协议,即域泛化(domain generalization, DG)和无监督域自适应(unsupervised domain adaptation, UDA):

BEV检测的域泛化(DG):在已有的数据集(源域)训练一个BEV检测算法,提升在具有在未知数据集(目标域)的检测性能。例如,在特定车辆或者场景下训练一个BEV检测模型,能够直接泛化到各种不同的车辆和场景。

BEV检测的无监督域自适应(UDA):在已有的数据集(源域)训练一个BEV检测算法,并且利用目标域的无标签数据来提高检测性能。例如,在一个新的车辆或者城市,只需要采集一些无监督数据就可以提高模型在新车和新环境的性能。值得一提的是DG和UDA的唯一区别是是否可以利用目标域的未标记数据。

视角偏差定义

为了检测物体的未知L=[x,y,z],大部分BEV检测会有关键的两部(1)获取不同视角的图像特征;(2)融合这些图像特征到BEV空间并且得到最后的预测结果:

上面公式描述,域偏差可能来源于特征提取阶段或者BEV融合阶段。然后本文进行了在附录进行了推到,得到了最后3D预测结果投影到2D结果的视角偏差为:

其中k_u, b_u, k_v和b_v与BEV编码器的域偏置有关,d(u,v)为模型的最终预测深度信息。c_u和c_v表示相机光学中心在uv图像平面上的坐标。上面等式提供了几个重要的推论:(1)最终位置偏移的存在会导致视角偏差,这表明优化视角偏差有助于缓解域偏移。(2)即使是相机光心射线上的点在单个视角成像平面上的位置也会发生移位。

直观地说,域偏移改变了BEV特征的位置,这是由于训练数据视点和相机参数有限而产生的过拟合。为了缓解这个问题,从BEV特征中重新渲染新的视图图像是至关重要的,从而使网络能够学习与视角和环境无关的特征。鉴于此,本研究旨在解决不同渲染视点相关的视角偏差,以提高模型的泛化能力

详解PD-BEV算法

PD-BEV一共分为三个部分:语义渲染,源域去偏见和目标域去偏见如图1所示。语义渲染是阐述如如何通过BEV特征建立2D和3D的透视关系。源域去偏见是描述在源域如何通过语义渲染来提高模型泛化能力。目标域去偏见是描述在目标域利用无标住的数据通过语义渲染来提高模型泛化能力。

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

语义渲染

由于许多算法会将BEV体积压缩成二维特征,因此我们首先使用BEV解码器将BEV特征转化为一个体积:

上面的公式其实就是对BEV平面进行了提升,增加了一个高度维度。然后通过相机的内外参数就可以在这个Volume采样成为一个2D的特征图,然后这个2D特征图和相机内外参数送到一个RenderNet里面来预测对应视角的heatmap和物体的属性。通过这样的类似于Nerf的操作就可以建立起2D和3D的桥梁。

极简智能王 极简智能王

极简智能- 智能聊天AI绘画,还可以创作、编写、翻译、写代码等多种功能,满足用户生活和工作的多方面需求

极简智能王 33 查看详情 极简智能王

源域去偏见

要提高模型的泛化性能,有几个关键点需要在源域进行改进。首先,可以利用源域的3D框来监控新渲染视图的热图和属性,以减少视角偏差。其次,可以利用归一化深度信息来帮助图像编码器更好地学习几何信息。这些改进措施将有助于提高模型的泛化性能

视角语义监督:基于语义渲染,热图和属性从不同的角度渲染(RenderNet的输出)。同时,随机采样一个相机内外参数,将物体的方框从3D坐标利用这些内外参数投射到二维相机平面内。然后对投影后的2Dbox与渲染的结果使用Focal loss和L1 loss进行约束:

通过这项操作,可以减少对相机内外参数的过度拟合,并提高对新视角的鲁棒性。值得一提的是,此论文将监督学习从RGB图像转换为物体中心的热图,以避免在无人驾驶领域中缺乏新视角RGB监督的缺点

几何监督:提供明确的深度信息可以有效地提高多相机3D目标检测的性能。然而,网络预测的深度倾向于过拟合内在参数。因此,这个论文借鉴了一种虚拟深度的方式:

其中BCE()表示二进制交叉熵损失,D_{pre}表示DepthNet的预测深度。f_u和f_v分别为像平面的u和v焦距,U为常数。值得注意的是,这里的深度是使用3D框而不是点云提供的前景深度信息。通过这样做,DepthNet更有可能专注于前景物体的深度。最后,当使用实际深度信息将语义特征提升到BEV平面时,将虚拟深度转换回实际深度。

目标域去偏见

在目标域就没有标注了,所以就不能用3D box监督来提高模型的泛化能力了。所以这个论文阐述说,2D检测的结果比起3D结果更加鲁棒。所以这个论文利用在源域中的2D预训练的检测器作为渲染后的视角的的监督,并且还利用了伪标签的机制:

这个操作可以有效地利用精确的二维检测来校正BEV空间中的前景目标位置,这是一种目标域的无监督正则化。为了进一步增强二维预测的校正能力,采用伪方法增强预测热图的置信度。这个论文在3.2和补充材料里给出了数学证明说明了3D结果在2D投影误差的原因。以及阐述了为什么通过这种方式可以去偏见,详细的可以参考原论文。

总体的监督

尽管在本文中添加了一些网络以帮助训练,但这些网络在推理过程中是不必要的。换句话说,本文的方法适用于大多数BEV检测方法学习透视不变特征的情况。为了测试我们的框架有效性,我们选择使用BEVDepth进行评估。在源域上使用BEVDepth的原始损失作为主要的三维检测监督。总之,算法的最终损失是:

跨域实验结果

表格1展示了不同方法在领域泛化(DG)和无监督领域适应(UDA)协议下的效果比较。其中,Target-Free表示DG协议,Pseudo Label、Coral和AD是一些常见的UDA方法。从图表中可以看出,这些方法在目标域上都取得了显著的改进。这表明语义渲染作为一个桥梁可以帮助学习针对域移位的透视不变特征。此外,这些方法并没有牺牲源域的性能,甚至在大多数情况下还有一些改进。需要特别提到的是,DeepAccident是基于Carla虚拟引擎开发的,经过在DeepAccident上的训练后,该算法取得了令人满意的泛化能力。此外,还测试了其他BEV检测方法,但在没有特殊设计的情况下,它们的泛化性能非常差。为了进一步验证利用目标域无监督数据集的能力,还建立了一个UDA基准,并在DG-BEV上应用了UDA方法(包括Pseudo Label、Coral和AD)。实验证明,这些方法在性能上有显著的提升。隐式渲染充分利用具有更好泛化性能的二维探测器来校正三维探测器的虚假几何信息。此外,发现大多数算法倾向于降低源域的性能,而本文方法相对温和。值得一提的是,AD和Coral在从虚拟数据集转移到真实数据集时表现出显着的改进,但在真实测试中却表现出性能下降。这是因为这两种算法是为解决风格变化而设计的,但在样式变化很小的场景中,它们可能会破坏语义信息。至于Pseudo Label算法,它可以通过在一些相对较好的目标域中增加置信度来提高模型的泛化性能,但盲目地增加目标域中的置信度实际上会使模型变得更差。实验结果证明了本文算法在DG和UDA方面取得了显著的性能提升

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

在三个关键组件上的消融实验结果展示在表格2中:2D检测器预训练(DPT)、源域去偏(SDB)和目标域去偏(TDB)。实验结果表明,每个组件都取得了改进,其中SDB和TDB表现出相对显著的效果

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

表格3展示了算法算法可以迁移到BEVFormer和FB-OCC算法上。因为这个算法是只需要对图像特征和BEV特征加上额外的操作,所以可以对有BEV特征的算法都有提升作用。

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

图5展示了检测到的未标记物体。第一行是标签的3D框,第二行是算法的检测结果。蓝色框表示算法可以检测到一些未标记的框。这表明方法在目标域甚至可以检测到没有标记的样本,例如过远或者街道两侧建筑内的车辆。

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

总结

本文提出了一种基于透视去偏的通用多摄像头3D物体检测框架,能够解决未知领域的物体检测问题。该框架通过将3D检测结果投影到2D相机平面,并纠正透视偏差,实现一致和准确的检测。此外,该框架还引入了透视去偏策略,通过渲染不同视角的图像来增强模型的鲁棒性。实验结果表明,该方法在领域泛化和无监督领域适应方面取得了显著的性能提升。此外,该方法还可以在虚拟数据集上进行训练,无需真实场景标注,为实时应用和大规模部署提供了便利。这些亮点展示了该方法在解决多摄像头3D物体检测中的挑战和潜力。这篇论文尝试利用Nerf的思路来提高BEV的泛化能力,同时可以利用有标签的源域数据和无标签的目标域数据。此外,尝试了Sim2Real的实验范式,这对于无人驾驶闭环具有潜在价值。从定性和定量结果都有很好的结果,并且开源了代码值得看一看

什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!

原文链接:https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g

以上就是NeRF在BEV泛化性能方面的突破:首个跨域开源代码成功实现Sim2Real的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/444352.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 20:08:36
下一篇 2025年11月7日 20:09:58

相关推荐

  • 当贝X5S怎样看3D

    当贝X5S观看3D影片无立体效果时,需开启3D模式并匹配格式:1. 播放3D影片时按遥控器侧边键,进入快捷设置选择3D模式;2. 根据片源类型选左右或上下3D格式;3. 可通过首页下拉进入电影专区选择3D内容播放;4. 确认片源为Side by Side或Top and Bottom格式,并使用兼容…

    2025年12月6日 软件教程
    100
  • Laravel 速成指南:快速掌握Laravel框架

    Laravel 速成指南:快速掌握Laravel框架 引言:Laravel 是一款流行的PHP开发框架,因其简单易用、功能丰富和高效而备受开发者的青睐。本文旨在为初学者提供一个快速入门 Laravel 的指南,通过实际的代码示例帮助读者快速掌握 Laravel 框架的基本概念和使用方法。 Larav…

    2025年12月4日
    400
  • 检测SqlServer服务器CPU是否瓶颈

    检测SqlServer服务器CPU是否瓶颈 初次写博文,分享个人心得,欢迎大虾小虾来拍砖。 系统自带的性能监视器 在开始命令框中输入perfmon按enter键即可打开性能监视器 可以通过监视 % Processor Time 的值察看cpu是否遇到瓶颈,此值最好不要超出80% 如果达到了比 检测S…

    2025年12月2日
    000
  • 《无限世界》【宇宙奥秘】盛大开服 四大职业任您挑选

    2024年11月2日14:00,《无限世界》新服揭幕,期待您的探索!领取媒体礼包与享受新服专享活动,就可以体验畅玩多元宇宙的乐趣!快来精选只属于您的职业吧!以下是每个职业的简要介绍: 一、科幻战士(特种兵)  特点:科幻战士拥有强大的科技装备和高超的战斗技巧。他们擅长使用各种高科技武器,如激光枪、电…

    2025年12月2日 行业动态
    000
  • Java 框架的响应式编程架构:实现和注意事项

    响应式编程架构在 java 中通过 rxjava、reactor 和 vert.x 等框架实现。rxjava 以可观察序列处理数据流。reactor 基于 reactor 模式实现非阻塞事件驱动架构。vert.x 提供全面功能,包括事件总线和 websockets 支持。 Java 框架的响应式编程…

    2025年12月2日 java
    000
  • 「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统

    在普渡大学数字孪生实验室的最新研究中,科学家们采用了一项革命性技术——利用大型语言模型(llm)来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性,有望提高车辆对驾驶指令的理解和响应速度。 这项技术的关键是Talk2Drive框架,旨在利用人类自然语言来操控自动驾驶汽…

    2025年12月2日 科技
    000
  • iOS 18可检测是否正使用慢速充电器 网友:最高27W没必要

    6月12日消息,苹果ios 18已正式发布,除了加入更多充电限制选项外,还新增一项功能,可以检测用户是否正在使用慢速充电器为设备充电。 在iOS 18的设置应用中,iPhone 15用户可以在「电池」-「充电」选项中找到新的充电限制设置。 以往,iOS只允许用户将充电限制设置为80%,而现在新增了8…

    2025年12月2日 行业动态
    000
  • 国产屏下 3D 人脸识别技术进入测试阶段 华为还是小米首发?

    7 月 14 日,”数码闲聊站” 消息称,有厂商正在实验室中对国产屏下 3d 人脸识别技术进行版本测试,这表明该技术正逐步迈向成熟,未来有望在智能手机领域实现应用。 近年来,屏下 3D 人脸识别技术成为智能手机设计的重要突破,其目标是将 3D 人脸识别模块完全置于屏幕下方,从…

    2025年12月2日
    000
  • Java 框架的性能指标有哪些,如何进行比较?

    java框架的性能指标包括:吞吐量、延迟、内存消耗和cpu消耗。比较不同框架的性能时,可按以下步骤进行:确定基准、选择框架、部署框架、执行基准测试、收集数据、分析结果。实战案例为比较spring boot和jakarta ee的性能,可按上述步骤执行基准测试并分析数据。 Java 框架的性能指标: …

    2025年12月2日 java
    000
  • win7系统如何检测和清理磁盘

    php小编草莓教你轻松检测和清理磁盘,释放更多空间!只需几步,即可快速扫描磁盘空间使用情况,找出占用空间最大的文件和文件夹,并安全地删除不需要的文件,让你的电脑运行更顺畅。告别磁盘空间不足的烦恼,尽享流畅操作体验! 在使用Win7系统的过程中,随着时间的推移,磁盘上会积累大量的临时文件、垃圾文件和无…

    2025年12月2日 电脑教程
    000
  • java高频率基础面试题——集合框架部分

    1、ArrayList和Vector的区别 (更多面试题推荐:java面试题及答案) 这两个类都实现了List接口(List接口继承了Collection接口),他们都是有序集合,即存储在这两个集合中的元素的位置都是有顺序的,相当于一种动态的数组,我们以后可以按位置索引号取出某个元素,并且其中的数据…

    2025年12月2日 java
    000
  • java框架的性能趋势和未来方向

    java 框架的性能趋势注重异步和云原生技术,未来发展方向包括:反应式编程:采用异步和非阻塞操作。微服务和分布式系统:提高效率和可管理性。无服务器计算:简化服务器管理。优化内存使用:提高内存效率。人工智能和机器学习:支持数据驱动的应用程序。 Java 框架的性能趋势和未来方向 引言随着 Java 应…

    2025年12月2日 java
    000
  • java框架选择指南

    选择 java 框架时,需考虑项目规模、需求、团队技能和社区支持。流行的 java 框架包括:spring framework:全栈框架,涵盖数据库访问、web 服务。hibernate:面向对象的持久化框架,用于管理数据库交互。struts 2:mvc web 应用程序框架,提供易用 api。ja…

    2025年12月2日 java
    000
  • java框架学习难度排行

    排行榜:1. spring:简单;2. spring boot:简单;3. hibernate:中等;4. junit:中等;5. mockito:中等;6. selenium:困难;7. apache maven:困难;8. gradle:困难。例如,使用 spring boot 创建 restf…

    2025年12月2日 java
    000
  • java框架有哪些优势和劣势?

    java框架提供结构,简化开发、提高代码质量和促进代码重用。优势包括:1. 简化开发;2. 加快开发;3. 提高代码质量;4. 代码重用;5. 社区支持。劣势包括:1. 灵活性受限;2. 学习曲线;3. 性能开销;4. 依赖性;5. 缺乏控制。例如,spring framework 提供了广泛的组件…

    2025年12月2日 java
    000
  • java框架有哪些异步编程最佳实践?

    在 java 中进行异步编程时,最佳实践包括利用非阻塞 i/o、拥抱反应式编程和使用异步方法。通过这些实践,开发人员可以在现代 web 开发中构建更响应、更可扩展的应用程序。例如,使用 spring webflux 构建的异步 rest api 可以通过反应式编程和异步方法有效地处理用户请求。 Ja…

    2025年12月2日 java
    000
  • 不同 Java 框架的优缺点有哪些?

    在 java 框架中:spring:轻量级、模块化,提供广泛的功能,但复杂性高;hibernate:强大的 orm 框架,简化数据库访问,但性能可能较低;struts:基于 mvc 的轻量级框架,适用于 web 应用程序,但可扩展性有限;vert.x:非阻塞、反应式框架,适用于高性能应用程序,但社区…

    2025年12月2日 java
    000
  • Java 框架的社区支持和文档资源

    java 框架的社区支持至关重要,包括论坛、文档、博客和技术支持。这些资源提供丰富的学习、故障排除和技术支持选项,使开发人员能够充分利用 java 框架创建健壮的应用程序。 Java 框架的社区支持和文档资源 Java 框架以其丰富的功能、稳定性和强大的社区支持而闻名。社区提供广泛的资源,包括论坛、…

    2025年12月2日 java
    000
  • java框架的未来发展方向是什么?

    java 框架发展方向包括:云原生:支持云环境特性,如弹性、可扩展性和可管理性。全栈开发:使用单一框架构建整个应用程序,简化开发和提升用户体验。微服务:提供构建和管理微服务所需的工具和库。响应式编程:非阻塞编程范例,创建高性能和可扩展的应用程序。ai 和机器学习:支持机器学习模型训练和部署。 Jav…

    2025年12月2日 java
    000
  • 如何根据业务需求选择合适的java框架?

    在选择 java 框架时,首先需要确定应用程序类型、业务功能、性能要求和技术限制。然后,探索 spring framework、hibernate 和 jakarta ee 等可用框架。通过评估功能、学习曲线、社区支持、性能和文档,将框架与业务需求进行比较,选择最合适的框架。例如,对于高并发电子商务…

    2025年12月2日 java
    000

发表回复

登录后才能评论
关注微信