NeRF在BEV泛化性能方面的突破：首个跨域开源代码成功实现Sim2Real

程序猿 • 2025年11月7日 20:09:30 • 科技 • 阅读 0

写在前面&笔者的个人总结

鸟瞰图(Bird eye’s view, BEV)检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测，这导致了这些算法过拟合于不变的相机内参（相机类型）和外参（相机摆放方式）。本文提出了一种基于隐式渲染的BEV检测框架，能够解决未知域的物体检测问题。该框架通隐式渲染来建立物体3D位置和单个视图的透视位置关系,这可以用来纠正透视偏差。此方法在领域泛化（DG）和无监督领域适应（UDA）方面取得了显著的性能提升。该方法首次尝试了只用虚拟数据集上进行训练在真实场景下进行评测BEV检测,可以打破虚实之间的壁垒完成闭环测试。

论文链接：https://arxiv.org/pdf/2310.11346.pdf代码链接：https://github.com/EnVision-Research/Generalizable-BEV

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

BEV检测域泛化问题背景

多相机检测是指利用多台摄像机对三维空间中的物体进行检测和定位的任务。通过结合来自不同视点的信息，多摄像头3D目标检测可以提供更准确和鲁棒的目标检测结果，特别是在某些视点的目标可能被遮挡或部分可见的情况下。近年来，鸟瞰图检测(Bird eye’s view, BEV)方法在多相机检测任务中得到了极大的关注。尽管这些方法在多相机信息融合方面具有优势，但当测试环境与训练环境存在显著差异时，这些方法的性能可能会严重下降。

目前，大多数BEV检测算法都是在相同的数据集上进行训练和评估，这导致这些算法对相机内外参数和城市道路条件的变化过于敏感，过拟合问题严重。然而，在实际应用中，BEV检测算法常常需要适应不同的新车型和新摄像头，这导致这些算法失效。因此，研究BEV检测的泛化性非常重要。此外，闭环仿真对于无人驾驶也非常重要，但目前只能在虚拟引擎（如Carla）中进行评估。因此，有必要解决虚拟引擎和真实场景之间的域差异问题

域泛化(domain generalization, DG)和无监督域自适应(unsupervised domain adaptation, UDA)是缓解分布偏移的两个有前途的方向。DG方法经常解耦和消除特定于领域的特征，从而提高不可见领域的泛化性能。对于UDA，最近的方法通过生成伪标签或潜在特征分布对齐来缓解域偏移。然而，如果不使用来自不同视点、相机参数和环境的数据，纯视觉感知学习与视角和环境无关的特征是非常具有挑战性的。

观察表明单视角(相机平面)的2D检测往往比多视角的3D目标检测具有更强的泛化能力，如图所示。一些研究已经探索了将2D检测整合到BEV检测中，例如将2D信息融合到3D检测器中或建立2D-3D一致性。二维信息融合是一种基于学习的方法，而不是一种机制建模方法，并且仍然受到域迁移的严重影响。现有的2D-3D一致性方法是将3D结果投影到二维平面上并建立一致性。这种约束可能损害目标域中的语义信息，而不是修改目标域的几何信息。此外，这种2D-3D一致性方法使得所有检测头的统一方法具有挑战性。

本论文的的贡献总结

本论文提出了一种基于视角去偏的广义BEV检测框架，该框架不仅可以帮助模型学习源域中的视角和上下文不变特征，还可以利用二维检测器进一步纠正目标域中的虚假几何特征。本文首次尝试在BEV检测上研究无监督域自适应，并建立了一个基准。在UDA和DG协议上都取得了最先进的结果。本文首次探索了在没有真实场景注释的虚拟引擎上进行训练，以实现真实世界的BEV检测任务。

BEV检测域泛化问题定义

问题定义

研究主要围绕增强BEV检测的泛化。为了实现这一目标，本文探索了两个广泛具有实际应用价值的协议，即域泛化(domain generalization, DG)和无监督域自适应(unsupervised domain adaptation, UDA)：

BEV检测的域泛化(DG)：在已有的数据集（源域）训练一个BEV检测算法，提升在具有在未知数据集（目标域）的检测性能。例如，在特定车辆或者场景下训练一个BEV检测模型，能够直接泛化到各种不同的车辆和场景。

BEV检测的无监督域自适应(UDA)：在已有的数据集（源域）训练一个BEV检测算法，并且利用目标域的无标签数据来提高检测性能。例如，在一个新的车辆或者城市，只需要采集一些无监督数据就可以提高模型在新车和新环境的性能。值得一提的是DG和UDA的唯一区别是是否可以利用目标域的未标记数据。

视角偏差定义

为了检测物体的未知L=[x,y,z]，大部分BEV检测会有关键的两部（1）获取不同视角的图像特征；（2）融合这些图像特征到BEV空间并且得到最后的预测结果：

上面公式描述，域偏差可能来源于特征提取阶段或者BEV融合阶段。然后本文进行了在附录进行了推到，得到了最后3D预测结果投影到2D结果的视角偏差为：

其中k_u, b_u, k_v和b_v与BEV编码器的域偏置有关，d(u,v)为模型的最终预测深度信息。c_u和c_v表示相机光学中心在uv图像平面上的坐标。上面等式提供了几个重要的推论:(1)最终位置偏移的存在会导致视角偏差，这表明优化视角偏差有助于缓解域偏移。(2)即使是相机光心射线上的点在单个视角成像平面上的位置也会发生移位。

直观地说，域偏移改变了BEV特征的位置，这是由于训练数据视点和相机参数有限而产生的过拟合。为了缓解这个问题，从BEV特征中重新渲染新的视图图像是至关重要的，从而使网络能够学习与视角和环境无关的特征。鉴于此，本研究旨在解决不同渲染视点相关的视角偏差，以提高模型的泛化能力

详解PD-BEV算法

PD-BEV一共分为三个部分：语义渲染，源域去偏见和目标域去偏见如图1所示。语义渲染是阐述如如何通过BEV特征建立2D和3D的透视关系。源域去偏见是描述在源域如何通过语义渲染来提高模型泛化能力。目标域去偏见是描述在目标域利用无标住的数据通过语义渲染来提高模型泛化能力。

语义渲染

由于许多算法会将BEV体积压缩成二维特征，因此我们首先使用BEV解码器将BEV特征转化为一个体积：

上面的公式其实就是对BEV平面进行了提升，增加了一个高度维度。然后通过相机的内外参数就可以在这个Volume采样成为一个2D的特征图，然后这个2D特征图和相机内外参数送到一个RenderNet里面来预测对应视角的heatmap和物体的属性。通过这样的类似于Nerf的操作就可以建立起2D和3D的桥梁。

极简智能王

极简智能- 智能聊天AI绘画，还可以创作、编写、翻译、写代码等多种功能，满足用户生活和工作的多方面需求

33 查看详情

源域去偏见

要提高模型的泛化性能，有几个关键点需要在源域进行改进。首先，可以利用源域的3D框来监控新渲染视图的热图和属性，以减少视角偏差。其次，可以利用归一化深度信息来帮助图像编码器更好地学习几何信息。这些改进措施将有助于提高模型的泛化性能

视角语义监督：基于语义渲染，热图和属性从不同的角度渲染(RenderNet的输出)。同时，随机采样一个相机内外参数，将物体的方框从3D坐标利用这些内外参数投射到二维相机平面内。然后对投影后的2Dbox与渲染的结果使用Focal loss和L1 loss进行约束：

通过这项操作，可以减少对相机内外参数的过度拟合，并提高对新视角的鲁棒性。值得一提的是，此论文将监督学习从RGB图像转换为物体中心的热图，以避免在无人驾驶领域中缺乏新视角RGB监督的缺点

几何监督：提供明确的深度信息可以有效地提高多相机3D目标检测的性能。然而，网络预测的深度倾向于过拟合内在参数。因此，这个论文借鉴了一种虚拟深度的方式：

其中BCE()表示二进制交叉熵损失，D_{pre}表示DepthNet的预测深度。f_u和f_v分别为像平面的u和v焦距，U为常数。值得注意的是，这里的深度是使用3D框而不是点云提供的前景深度信息。通过这样做，DepthNet更有可能专注于前景物体的深度。最后，当使用实际深度信息将语义特征提升到BEV平面时，将虚拟深度转换回实际深度。

目标域去偏见

在目标域就没有标注了，所以就不能用3D box监督来提高模型的泛化能力了。所以这个论文阐述说，2D检测的结果比起3D结果更加鲁棒。所以这个论文利用在源域中的2D预训练的检测器作为渲染后的视角的的监督，并且还利用了伪标签的机制：

这个操作可以有效地利用精确的二维检测来校正BEV空间中的前景目标位置，这是一种目标域的无监督正则化。为了进一步增强二维预测的校正能力，采用伪方法增强预测热图的置信度。这个论文在3.2和补充材料里给出了数学证明说明了3D结果在2D投影误差的原因。以及阐述了为什么通过这种方式可以去偏见，详细的可以参考原论文。

总体的监督

尽管在本文中添加了一些网络以帮助训练，但这些网络在推理过程中是不必要的。换句话说，本文的方法适用于大多数BEV检测方法学习透视不变特征的情况。为了测试我们的框架有效性，我们选择使用BEVDepth进行评估。在源域上使用BEVDepth的原始损失作为主要的三维检测监督。总之，算法的最终损失是：

跨域实验结果

表格1展示了不同方法在领域泛化（DG）和无监督领域适应（UDA）协议下的效果比较。其中，Target-Free表示DG协议，Pseudo Label、Coral和AD是一些常见的UDA方法。从图表中可以看出，这些方法在目标域上都取得了显著的改进。这表明语义渲染作为一个桥梁可以帮助学习针对域移位的透视不变特征。此外，这些方法并没有牺牲源域的性能，甚至在大多数情况下还有一些改进。需要特别提到的是，DeepAccident是基于Carla虚拟引擎开发的，经过在DeepAccident上的训练后，该算法取得了令人满意的泛化能力。此外，还测试了其他BEV检测方法，但在没有特殊设计的情况下，它们的泛化性能非常差。为了进一步验证利用目标域无监督数据集的能力，还建立了一个UDA基准，并在DG-BEV上应用了UDA方法（包括Pseudo Label、Coral和AD）。实验证明，这些方法在性能上有显著的提升。隐式渲染充分利用具有更好泛化性能的二维探测器来校正三维探测器的虚假几何信息。此外，发现大多数算法倾向于降低源域的性能，而本文方法相对温和。值得一提的是，AD和Coral在从虚拟数据集转移到真实数据集时表现出显着的改进，但在真实测试中却表现出性能下降。这是因为这两种算法是为解决风格变化而设计的，但在样式变化很小的场景中，它们可能会破坏语义信息。至于Pseudo Label算法，它可以通过在一些相对较好的目标域中增加置信度来提高模型的泛化性能，但盲目地增加目标域中的置信度实际上会使模型变得更差。实验结果证明了本文算法在DG和UDA方面取得了显著的性能提升

在三个关键组件上的消融实验结果展示在表格2中：2D检测器预训练（DPT）、源域去偏（SDB）和目标域去偏（TDB）。实验结果表明，每个组件都取得了改进，其中SDB和TDB表现出相对显著的效果

表格3展示了算法算法可以迁移到BEVFormer和FB-OCC算法上。因为这个算法是只需要对图像特征和BEV特征加上额外的操作，所以可以对有BEV特征的算法都有提升作用。

图5展示了检测到的未标记物体。第一行是标签的3D框，第二行是算法的检测结果。蓝色框表示算法可以检测到一些未标记的框。这表明方法在目标域甚至可以检测到没有标记的样本，例如过远或者街道两侧建筑内的车辆。

总结

本文提出了一种基于透视去偏的通用多摄像头3D物体检测框架，能够解决未知领域的物体检测问题。该框架通过将3D检测结果投影到2D相机平面，并纠正透视偏差，实现一致和准确的检测。此外，该框架还引入了透视去偏策略，通过渲染不同视角的图像来增强模型的鲁棒性。实验结果表明，该方法在领域泛化和无监督领域适应方面取得了显著的性能提升。此外，该方法还可以在虚拟数据集上进行训练，无需真实场景标注，为实时应用和大规模部署提供了便利。这些亮点展示了该方法在解决多摄像头3D物体检测中的挑战和潜力。这篇论文尝试利用Nerf的思路来提高BEV的泛化能力，同时可以利用有标签的源域数据和无标签的目标域数据。此外，尝试了Sim2Real的实验范式，这对于无人驾驶闭环具有潜在价值。从定性和定量结果都有很好的结果，并且开源了代码值得看一看

原文链接：https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g

以上就是NeRF在BEV泛化性能方面的突破：首个跨域开源代码成功实现Sim2Real的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/444352.html

3d 框架检测

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

通过AI技术，微软缩减了20年的筛选任务至仅需80小时，有望减少电池中锂的使用量70%

上一篇 2025年11月7日 20:08:36

北大出品：纹理质量和多视角一致性的最新SOTA，在2分钟内实现1张图的3D转换

下一篇 2025年11月7日 20:09:58

好文分享

探究最佳响应式布局框架：竞争激烈！

响应式布局框架大比拼：谁是最佳选择？随着移动设备的普及和多样化，网页的响应式布局变得越来越重要。为了满足用户的不同设备和屏幕尺寸，在设计和开发网页时采用响应式布局框架是必不可少的。然而，面对众多的框架选择，我们不禁要问：哪个是最佳选择？以下将对目前比较流行的三种响应式布局框架进行比较评价，它们分…

程序猿
2025年12月24日
0000
好文分享

深入学习响应式布局框架：适合初学者到专家的详尽指南

响应式布局框架解析：从初学者到专家的必备指南随着移动设备的普及和多样化，响应式布局成为了现代Web设计的必备技能。响应式布局框架以其简单、灵活和可维护的特点，成为了开发者们的首选工具。然而，对于初学者来说，学习和理解响应式布局框架可能会感到有些困惑。本文将从初学者到专家，为您提供一个详细的指南，帮…

程序猿
2025年12月24日
0000
选择最适合您的响应式布局框架：综合评估不同工具

响应式设计是指网页可以根据不同设备的屏幕尺寸和分辨率进行自适应的布局，以确保在各种设备上都能提供良好的浏览体验。为了方便开发者实现响应式布局，出现了许多优秀的框架和工具。本文将汇总一些主流的响应式布局框架，并提供具体的代码示例，帮助读者选择最适合自己的工具。 Bootstrap（https://ge…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

探索五种流行的响应式设计框架

随着移动设备的广泛应用和互联网的普及，响应式布局已经成为了网页设计的重要概念。响应式布局能够根据用户使用的设备（如手机、平板、电脑等）不同的屏幕尺寸和分辨率，自动适应调整网页的布局和样式，提供更好的用户体验。为了快速实现响应式布局，开发者可以使用现成的响应式布局框架。这些框架提供了一系列的CSS和…

程序猿
2025年12月24日
0000
好文分享

了解Ajax框架：探索常见的五种框架

了解Ajax框架：探索常见的五种框架，需要具体代码示例引言：在现代Web应用开发中，Ajax是必不可少的技术之一。它以其支持异步数据交互，提升用户体验等特点，成为了前端开发中不可或缺的一部分。为了更好地了解和掌握Ajax框架，本文将介绍五种常见的Ajax框架，并提供具体的代码示例，帮助读者深入了解…

程序猿
2025年12月24日
0000
好文分享

解析网页设计中CSS框架和排版的作用与优点

在如今的网页设计领域，排版和CSS框架扮演着至关重要的角色。而在这种快节奏的工作中，更快速、更高效地完成任务显得尤为关键，这就是排版和CSS框架的优势所在。本文将会探讨如何使用这些工具来优化网页设计，同时提供一些实际的代码篇例，以便读者更好地理解。一、CSS框架的作用和优势 CSS框架是为了能够更…

程序猿
2025年12月24日
0000
好文分享

揭开提高手机网页开发效率的秘密武器：了解手机CSS框架的全貌

在如今移动互联网盛行的时代，手机网页开发已经成为一项必要的技能。相比于传统PC端网页，手机网页的开发要面临更多的挑战和限制。因此，使用一些高效的开发工具和技巧可以大大提高开发效率和质量。其中之一就是手机CSS框架。本文将介绍手机CSS框架的基本概念、常用的手机CSS框架以及具体代码示例，希望能对大家…

程序猿
2025年12月24日
0000
利用纯CSS创建 3D 穿梭效果（附代码）

怎么创建3d 穿梭效果？实现一种加速动画效果？下面本篇文章就来给大家介绍一下如何使用纯css来轻松搞定它！希望对大家有所帮助！周末在家习惯性登陆 Apex，准备玩几盘。在登陆加速器的过程中，发现加速器到期了。我一直用的腾讯网游加速器，然而点击充值按钮，提示最近客户端升级改造，暂不支持充值（这个操…

程序猿
2025年12月24日 • 好文分享
0000
纯CSS3实现3d立体文字效果（源码分析）

本篇文章带大家了解一下3d文字效果的实现原理，没有考虑代码的复用性和可移植性，有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。 1.单单纯纯的效果一为了简化操作，我们使用和上一篇文章《纯CSS3文字效果推荐》一样的文档结构，后面的效果大差小不差，也就不再列出。前端开发whqet …

程序猿
2025年12月24日 • 好文分享
0000
常见的css框架有哪些

常见css框架：1、Bootstrap框架；2、Foundation框架，一个专业的前端框架；3、Pure框架，优点是渲染快；4、Skeleton框架；5、99lime HTML KickStart框架，适合网站快速开发；6、Kube框架。本教程操作环境：windows7系统、CSS3版、Dell…

程序猿
2025年12月24日 • 好文分享
0000
15 个优秀的响应式 Web 设计 HTML 和 CSS 框架

【推荐教程：CSS视频教程】响应式 Web 设计旨在为各种设备（从台式机显示器到手机）提供最佳的浏览体验。本文汇总了一些优秀的响应式 Web 设计 HTML 和 CSS 框架。这些框架都是开源的并免费的。对响应式 Web 框架进行比较并不那么容易。有的框架适合设计更快、更精简网站的某些功能，而…

程序猿
2025年12月24日 • 好文分享
0000
最受欢迎的10大CSS框架

web 开发工程师在开发页面样式的时候需要花费大量的时间开发，其中最头疼的还是浏览器的兼容性问题，最省事的是使用 css 框架，幸运的是一些大神编写了一套精美的 css 框架并开源出来，那么有哪些不错的 css 框架呢？我收集了一些资料和数据来和大家讨论，下面我就说说 Github 上 star …

程序猿
好文分享 2025年12月24日
0000
纯CSS3实现3D翻转效果的代码示例

本篇文章给大家带来的内容是关于纯CSS3实现3D翻转效果的代码示例，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。作为前端开发人员的必修课，CSS3能带我们完成许多基本动效，本期我们将用CSS3实现hover翻转效果~ 第一步非常简单，我们简单画1个演示方块，为其添加transit…

程序猿
2025年12月24日 • 好文分享
0000
CSS3 3D旋转rotate效果的使用介绍

这篇文章主要为大家详细介绍了css3 3d旋转rotate效果实例，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文实例为大家分享了CSS3 3D旋转rotate效果实例，供大家参考，具体内容如下效果图：示例代码立即学习“前端免费学习笔记（深入）”； 3D旋转的Demo #experim…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

如何利用CSS3实现3D翻书效果

这篇文章主要介绍了css3实现3d翻书效果，基于css3新属性animation及transform实现类似翻书效果，具有一定的参考价值，感兴趣的小伙伴们可以参考一下先上效果图：（样式有点丑，可以忽略一下下，效果出来了就好，后期加到其他项目中方便更改0.0）类似翻书效果，原本的意思是使用JS来控…

程序猿
2025年12月24日
0000
好文分享

关于css过渡和3D效果的简单实现

下面为大家带来一篇css过渡+3d效果的简单实现。内容挺不错的，现在就分享给大家，也给大家做个参考。 css过渡+3D效果的简单实现 guodu#wp{ border: 1px solid red; width: 500px; height: 500px; background-color: pin…

程序猿
2025年12月24日
0000
用css3简单的制作3d半透明立方体图片详解

new document //css部分html{font-size:62.5%;}img{width:300px;height:300px;} #stage{//搭建一个舞台margin-top:200px;margin-left:auto;margin-right:auto;width:300p…

程序猿
好文分享 2025年12月23日
0000
教你玩转CSS3的3D效果

css3的3d起步要玩转css3的3d，就必须了解几个词汇，便是透视(perspective)、旋转(rotate)和移动(translate)。透视即是以现实的视角来看屏幕上的2d事物，从而展现3d的效果。旋转则不再是2d平面上的旋转，而是三维坐标系的旋转，就包括x轴，y轴，z轴旋转。平移同理。…

程序猿
2025年12月23日 • 好文分享
0000
HTML文件的框架是什么？如何编辑HTML文档？

一个最基本的html文件框架包含以下核心部分：1.声明html5文档类型，避免浏览器怪异模式；2.作为根元素并指定语言；3. 包含元数据如设置字符编码、适配移动设备、定义网页标题；4.承载实际内容，如标题和段落；编辑html需用文本编辑器（如vs code）创建或打开.html文件，编写代码后保…

程序猿
2025年12月22日 • 好文分享
0000
好文分享

学习canvas框架详解常用的canvas框架

探索Canvas框架：了解常用的Canvas框架有哪些，需要具体代码示例引言：Canvas是HTML5中提供的一个绘图API，通过它我们可以实现丰富的图形和动画效果。为了提高绘图的效率和便捷性，许多开发者开发了不同的Canvas框架。本文将介绍一些常用的Canvas框架，并提供具体代码示例，以帮助…

程序猿
2025年12月21日
0000