SurroundOcc：环视三维占据栅格新SOTA！

程序猿 • 2025年11月8日 17:38:29 • 用户投稿 • 阅读 5

在这个工作中，我们通过多帧点云构建了稠密占据栅格数据集，并设计了基于transformer的2d-3d unet结构的三维占据栅格网络。很荣幸地，我们的文章被iccv 2023收录，目前项目代码已开源，欢迎大家试用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

arXiv：https://arxiv.org/pdf/2303.09551.pdf

代码：https://github.com/weiyithu/SurroundOcc

主页链接：https://weiyithu.github.io/SurroundOcc/

最近一直在疯狂找工作，没有闲下来写，正好最近提交了camera-ready，作为一个工作的收尾觉得还是写个知乎总结下。其实文章部分的介绍各个公众号写的已经很好了，也感谢他们的宣传，大家可以直接参考自动驾驶之心的自动驾驶之心：nuScenes SOTA！SurroundOcc：面向自动驾驶的纯视觉3D占据预测网络（清华&天大）。总的来说，contribution分为两块，一部分是如何利用多帧的lidar点云构建稠密occupancy数据集，另一部分是如何设计occupancy预测的网络。其实两部分的内容都比较直接易懂，大家有哪块不理解的也可以随时问我。那么这篇文章我想讲点论文之外的事情，一个是如何改进当前方案使其更加易于部署，另一个是未来的发展方向。

部署

一个网络是否易于部署，主要看其中有没有比较难在板端实现的算子，SurroundOcc这个方法里比较难搞的两个算子是transformer层以及3D卷积。

transformer的主要作用是将2D feature转换到3D空间，那么其实这部分也可以用LSS，Homography甚至mlp来实现，所以可以根据已实现的方案去修改这部分的网络。但据我所知，transformer的方案在几个方案里对calibration不敏感并且性能也比较好，建议有能力实现transformer部署的还是利用原有方案。

对于3D卷积来说，可以将其替换成2D卷积，这里需要将原来 (C, H, W, Z) 的3D feature reshape成（C* Z, H, W）的 2D feature，然后就可以用2D卷积进行特征提取了，在最后occupancy预测那步再把它reshape回(C, H, W, Z)，并进行监督。另一方面，skip connection由于分辨率比较大所以比较吃显存，部署的时候可以去掉只留最小分辨率那一层。我们实验发现3D卷积中的这两个操作在nuscenes上都会有些许掉点，但业界数据集规模要远大于nuscenes，有时候有些结论也会改变，掉点应该会少甚至不掉。

千面视频动捕

千面视频动捕是一个AI视频动捕解决方案，专注于将视频中的人体关节二维信息转化为三维模型动作。

27 查看详情

在数据集构建方面，最耗时的一步是泊松重建。我们使用的是nuscenes数据集，其中采用了32线激光雷达进行采集。即使使用了多帧拼接技术，我们发现拼接后的点云仍然存在许多洞。因此，我们采用了泊松重建来填补这些洞。然而，目前业界使用的许多激光雷达点云都比较密集，例如M1、RS128等。因此，在这种情况下，可以省略泊松重建这一步，以加快数据集构建的速度

另一方面，SurroundOcc里是利用nuscenes中标注好的三维目标检测框将静态场景和动态物体分离的。但实际应用过程中，可以利用autolabel，也就是三维目标检测&跟踪大模型去得到每个物体在整个sequence中的检测框。相较于人工标注的label，利用大模型跑出来的结果肯定会存在一些误差，最直接的体现就是多帧的物体拼接后会有重影的现象。但其实occupancy对于物体形状的要求没有那么高，只要检测框位置比较准就能满足需求。

未来方向

当前方法还是比较依赖lidar提供occupancy的监督信号的，但很多车上，尤其是一些低阶辅助驾驶的车上没有lidar，这些车通过shadow模式可以传回来大量的RGB数据，那么一个未来方向是能不能只利用RGB进行自监督学习。一个自然的解决思路就是利用NeRF进行监督，具体来说，前面backbone部分不变，得到一个occupancy的预测，然后利用体素渲染得到每个相机视角下的RGB，和训练集中的真值RGB做loss形成监督信号。但很可惜的是这一套straightforward的方法我们试了试并不是很work，可能的原因是室外场景range太大，nerf可能hold不住，但也可能我们没有调好，大家也可以再试试。

另一个方向是时序&occupancy flow。其实occupancy flow对于下游任务的用处远比单帧occupancy大。ICCV的时候没来得及整occupancy flow的数据集，而且发paper的话还要对比很多flow的baseline，所以当时就没搞这块。时序网络可以参考BEVFormer和BEVDet4D的方案，比较简单有效。难的地方还是flow数据集这一部分，一般的物体可以用sequence的三维目标检测框算出来，但异型物体例如小动物塑料袋等，可能需要借助场景流的方法进行标注。

需要进行改写的内容是：原文链接：https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

以上就是SurroundOcc：环视三维占据栅格新SOTA！的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/495257.html

技术自动驾驶

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

鸿蒙系统和安卓系统哪个更稳定_鸿蒙系统对比安卓系统，哪款操作系统更流畅

上一篇 2025年11月8日 17:38:27

macOS系统蓝牙鼠标无法使用

下一篇 2025年11月8日 17:38:33

用户投稿

推荐有效的工具和技术来进行网站性能优化

随着互联网的快速发展，越来越多的企业将自己的业务扩展到了网上。然而，随之而来的问题是网站的性能优化。一个高效的网站能够提高用户体验，增加访问量以及销售额。为了达到这些目标，下面将要介绍一些有效的工具和技术来帮助您对网站进行性能优化。页面压缩：页面压缩是通过减少文件大小来提高页面加载速度的一种方法。…

程序猿
2025年12月22日
6000
用户投稿

实现响应式布局的技术和策略

如何实现响应式布局的技术与方法引言：随着移动设备的普及和多种终端的涌现，实现响应式布局已成为现代网页开发的重要一环。响应式布局可以使网页在不同的屏幕尺寸下自动适应，提供更好的用户体验。本文将介绍响应式布局的技术与方法，并提供具体的代码示例。一、媒体查询（Media Queries）媒体查询是实现…

程序猿
2025年12月21日
0000
用户投稿

静态重定位技术的原理及其应用案例

静态重定位技术的原理和应用引言：在现代计算机系统中，内存管理是一个非常重要的课题。随着软件的复杂性和规模的增加，内存的限制成为了我们面临的一个挑战。为了更高效地利用内存资源，静态重定位技术应运而生。本文将介绍静态重定位技术的原理、应用以及提供一些具体的代码示例。一、静态重定位技术的原理静态重定位…

程序猿
2025年12月21日
0000
用户投稿

分析静态定位技术的优缺点

静态定位技术的优势与局限性分析随着现代科技的发展，定位技术已经成为我们生活中不可或缺的一部分。而静态定位技术作为其中的一种，具有其特有的优势和局限性。本文将对静态定位技术进行深入分析，以便更好地了解其应用现状和未来的发展趋势。首先，我们来看一下静态定位技术的优势所在。静态定位技术是通过对待定位对…

程序猿
2025年12月21日
0000
用户投稿

优化网页设计的方法——静态定位的应用技巧

在现代互联网领域中，网页设计是一个至关重要的领域。深入探究网页设计的方方面面，现代设计师越来越意识到静态定位技术的重要性。静态定位技术可以使得网页设计更灵活，更符合用户的需求，从而大大提高用户对于网页的满意度与使用体验。本文将探究静态定位技术的作用，以及如何在网页设计中去优化与应用静态定位技术。一…

程序猿
2025年12月21日
7000
用户投稿

用Canvas技术打造引人入胜的动态效果，轻松get！

轻松掌握Canvas技术，打造炫酷动态效果 Canvas是HTML5中一项功能强大的绘图技术，可以实现各种炫酷的动态效果。本文将带你一步步学习Canvas的基本用法，并提供具体的代码示例，让你轻松掌握这项技术。一、Canvas简介 Canvas是HTML5中的一个元素，用于在网页上绘制图形、动画等…

程序猿
2025年12月21日
0000
用户投稿

了解canvas的JS技术：你熟知哪些呢？

探究canvas的JS技术：你知道有哪些吗？简介在现代Web开发中，JavaScript已经成为不可或缺的一部分。作为一种脚本语言，它可以为网页添加交互性和动态性。而在JS技术中，canvas则是一个重要的API之一。本文将带您深入了解canvas的JS技术，并介绍一些常用的canvas相关功能…

程序猿
2025年12月21日
8000
再谈前端HTML模板技术

这篇文章介绍的内容是关于再谈前端HTML模板技术，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下在web2.0之前，写jsp的时候虽然有es和JSTL，但是还是坚持jsp。后面在外包公司为了快速交货，还是用了php Smart技术。 web2.0后，前端模板技术风行。代表有如下三大…

程序猿
2025年12月21日 • 用户投稿
5000
用户投稿

如何搭建C++自动驾驶环境 Apollo平台配置

搭建C++自动驾驶环境需先配置Ubuntu系统、Docker及NVIDIA驱动，再克隆Apollo代码并构建Docker镜像，进入容器后用bazel编译，启动Dreamview可视化界面，选择地图与模块运行Demo；常见问题如编译失败可清理缓存或更新依赖，自定义车辆模型和地图需掌握URDF与prot…

程序猿
2025年12月18日
0000
如何配置C++的自动驾驶规划环境 Apollo规划模块二次开发

为什么apollo规划模块的二次开发需要特定的环境配置？apollo使用docker和bazel是为了处理复杂的依赖关系、确保构建一致性、支持gpu加速以及提升团队协作效率。2. 在apollo环境中进行规划模块二次开发的关键步骤包括：准备宿主机环境、克隆apollo仓库、进入docker环境、编译…

程序猿
2025年12月18日 • 用户投稿
0000
自动驾驶实时系统：确定性内存分配器开发指南

自动驾驶实时系统对确定性内存分配器的需求，是为了确保内存操作在可预测时间内完成，从而保障系统的稳定与安全。1. 预分配和内存池通过预先分配固定大小的内存块，实现o(1)时间复杂度的快速分配与释放，但可能导致内存浪费；2. bump allocator使用移动指针的方式实现极快的分配，但通常不支持单独…

程序猿
2025年12月18日 • 用户投稿
0000
用户投稿

如何在C++中进行自动驾驶和智能导航开发？

如何在C++中进行自动驾驶和智能导航开发？自动驾驶和智能导航是当今科技发展的热门领域之一。随着计算机硬件技术的快速发展和算法的不断完善，C++语言在自动驾驶和智能导航领域的应用越来越广泛。本文将介绍如何在C++中进行自动驾驶和智能导航的开发，并提供代码示例。传感器数据获取与处理自动驾驶和智能导…

程序猿
2025年12月17日
0000
用户投稿

如何实现C++中的自动驾驶和智能交通系统？

如何实现C++中的自动驾驶和智能交通系统？自动驾驶和智能交通系统是目前人工智能领域的热门话题，它们的应用领域涉及到交通运输、安全防护和城市规划等多个方面。本文将探讨如何使用C++编程语言实现自动驾驶和智能交通系统，并提供相关的代码示例。了解自动驾驶和智能交通系统基本原理自动驾驶系统是指通过计算机…

程序猿
2025年12月17日
1000
用户投稿

XML数据绑定技术有哪些

XML数据绑定技术通过将XML与程序对象映射，提升开发效率与代码可读性，主要分为基于XSD生成代码（如JAXB）和基于注解运行时绑定（如Simple XML）两类；选择时需权衡Schema稳定性、性能、开发效率及框架成熟度；相比手动解析，其优势在于类型安全、低维护成本，但面临大文件内存开销与复杂结构…

程序猿
2025年12月17日
0000
用户投稿

Python开发建议：掌握常用的调试工具和技术

Python作为一种强大、灵活的编程语言，被广泛应用于各种软件开发领域。然而，许多开发者在学习和使用Python时，往往忽略了调试技术的重要性。调试是软件开发过程中不可或缺的一部分，它可以帮助开发者找到和解决代码中的问题，提高开发效率，保证软件质量。因此，掌握常用的调试工具和技术对于Python开发…

程序猿
2025年12月13日
1000
用户投稿

Python底层技术揭秘：如何实现图像处理

Python底层技术揭秘：图像处理的实现及代码示例导语：图像处理是计算机科学中十分重要的一个领域。通过使用Python以及相关的底层技术，我们能够实现各种各样的图像处理操作。在本文中，我们将揭示Python图像处理的底层技术，并提供一些实用的代码示例。一、Python图像处理的基础知识在开始探讨…

程序猿
2025年12月13日
0000
用户投稿

Python底层技术揭秘：如何实现哈希算法

Python底层技术揭秘：如何实现哈希算法，需要具体代码示例摘要：哈希算法是计算机领域中常用的技术之一，用于快速确定数据的唯一标识。Python作为一门高级语言，提供了许多内建的哈希函数，如hash()函数以及各种散列算法的实现。本文将揭示哈希算法的原理和Python底层实现的细节，并提供具体的代…

程序猿
2025年12月13日
0000
用户投稿

苹果发布 Safari 技术预览版 223：聚焦稳定性与性能优化

近日，苹果公司推出了 safari 技术预览版的最新版本 223，该版本属于其专为开发者和早期用户打造的实验性浏览器更新。本次更新的重点在于修复已知问题并提升性能表现，目的是为未来正式版 safari 浏览器打下更坚实的基础。自 2016 年首次发布以来，Safari 技术预览版一直是开发者测试 …

程序猿
2025年12月2日
0000
无需电池即可实现「自动驾驶」，华盛顿大学开发出无限续航的机器人

不装电池，也能%ignore_a_1%的“车”出现了。甚至还会自动收集能量持续运行，完全没有里程焦虑（手动狗头）。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不错，这么一个小机器人，其实靠的是光和无线电波供能。其名MilliMobil…

程序猿
2025年12月2日 • 用户投稿
0000
BEV下的Radar-Camera 融合跨数据集实验研究

原标题：cross-dataset experimental study of radar-camera fusion in bird’s-eye view论文链接：https://arxiv.org/pdf/2309.15465.pdf作者单位：opel automobile gmbh rhein…

程序猿
2025年12月2日 • 用户投稿
0000

发表回复

登录后才能评论

SurroundOcc：环视三维占据栅格新SOTA！

部署

未来方向

关于作者

相关推荐

发表回复