跨模态占据性知识的学习：使用渲染辅助蒸馏技术的RadOcc

程序猿 • 2025年11月7日 13:31:28 • 科技 • 阅读 0

原标题：radocc: learning cross-modality occupancy knowledge through rendering assisted distillation

论文链接：https://arxiv.org/pdf/2312.11829.pdf

作者单位：FNii, CUHK-Shenzhen SSE, CUHK-Shenzhen 华为诺亚方舟实验室

会议：AAAI 2024

论文思路：

3D 占用预测是一项新兴任务，旨在使用多视图图像估计 3D 场景的占用状态和语义。然而，由于缺乏几何先验，基于图像的场景感知在实现准确预测方面遇到了重大挑战。本文通过探索该任务中的跨模态知识蒸馏来解决这个问题，即，本文在训练过程中利用更强大的多模态模型来指导视觉模型。在实践中，本文观察到直接应用，在鸟瞰（BEV）感知中提出并广泛使用的特征或 logits 对齐，并不能产生令人满意的结果。为了克服这个问题，本文引入了 RadOcc，一种用于 3D 占用预测的渲染辅助蒸馏范式。通过采用可微体渲染(differentiable volume rendering)，本文在透视图中生成深度和语义图，并提出了教师和学生模型的渲染输出之间的两个新颖的一致性标准(consistency criteria)。具体来说，深度一致性损失对齐渲染光线的终止分布(termination distributions)，而语义一致性损失则模仿视觉基础模型（VLM）引导的 intra-segment 相似性。nuScenes 数据集上的实验结果证明了本文提出的方法在改进各种 3D 占用预测方法方面的有效性，例如，本文提出的方法在 mIoU 指标中将本文的基线提高了 2.2%，在 Occ3D 基准中达到了 50%。

主要贡献：

本文介绍了一种名为RadOcc的渲染辅助蒸馏范式，用于3D占用预测。这是第一篇探索3D-OP中跨模态知识蒸馏的论文，为现有BEV蒸馏技术在该任务中的应用提供了有价值的见解。

作者提出了两种新颖的蒸馏约束，即渲染深度和语义一致性（RDC和RSC）。这些约束通过对齐由视觉基础模型引导的光线分布和关联矩阵，有效地增强了知识迁移过程。这种方法的关键在于利用深度和语义信息来引导渲染过程，从而提高了渲染结果的质量和准确性。通过将这两种约束结合起来，研究人员取得了显著的改进，为视觉任务中的知识迁移提供了新的解决方案。

配备所提出的方法，RadOcc 在 Occ3D 和 nuScenes 基准上表现出了最先进的密集和稀疏占用预测性能。此外，实验证明了本文提出的蒸馏方法可以有效地提升多个基线模型的性能。

网络设计：

本文首次研究了针对3D占用预测任务的跨模态知识蒸馏。以BEV感知领域利用BEV或logits一致性进行知识迁移的方法为基础，本文将这些蒸馏技术扩展到3D占用预测任务中，旨在对齐体素特征和体素logits，如图1(a)所示。然而，初步实验表明，这些对齐技术在3D-OP任务中面临重大挑战，特别是前一种方法引入了负迁移。这一挑战可能源于3D目标检测和占用预测之间的根本差异，后者作为一项更细粒度的感知任务，需要捕获几何细节以及背景目标。

怪兽AI知识库

企业知识库大模型 + 智能的AI问答机器人

51 查看详情

为了解决上述挑战，本文提出了 RadOcc，这是一种利用可微体渲染进行跨模态知识蒸馏的新颖方法。RadOcc的核心思想是对教师模型和学生模型生成的渲染结果进行对齐，如图1(b)所示。具体来说，本文使用相机的内参和外参对体素特征进行体渲染（Mildenhall et al. 2021），这使本文能够从不同的视点获得相应的深度图和语义图。为了实现渲染输出之间更好的对齐，本文引入了新颖的渲染深度一致性（RDC）和渲染语义一致性（RSC）损失。一方面，RDC 损失强制光线分布(ray distribution)的一致性，这使得学生模型能够捕获数据的底层结构。另一方面，RSC 损失利用了视觉基础模型的优势（Kirillov et al. 2023），并利用预先提取的 segment 进行 affinity 蒸馏。该标准允许模型学习和比较不同图像区域的语义表示，从而增强其捕获细粒度细节的能力。通过结合上述约束，本文提出的方法有效地利用了跨模态知识蒸馏，从而提高了性能并更好地优化了学生模型。本文展示了本文的方法在密集和稀疏占用预测方面的有效性，并在这两项任务上取得了最先进的结果。

图 1：渲染辅助蒸馏。(a) 现有方法对特征或 logits 进行对齐。(b) 本文提出的 RadOcc 方法同时约束渲染的深度图和语义。图2：RadOcc的总体框架。它采用师生架构，其中教师网络是多模态模型，而学生网络仅接受相机输入。两个网络的预测将用于通过可微分体渲染(differentiable volume rendering)生成渲染深度和语义。渲染结果之间采用了新提出的渲染深度和语义一致性损失。

图 3：渲染深度分析。尽管教师（T）和学生（S）的渲染深度相似，特别是对于前景物体，但它们的光线终止分布显示出很大的差异。

图 4：affinity matrix 的生成。本文首先采用视觉基础模型（VFM），即 SAM，将 segments 提取到原始图像中。之后，本文对每个 segment 中渲染的语义特征进行 segment 聚合，获得 affinity matrix 。

实验结果：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

总结：

本文提出了 RadOcc，一种用于 3D 占用预测的新型跨模态知识蒸馏范式。它利用多模态教师模型通过可微分体渲染(differentiable volume rendering)为视觉学生模型提供几何和语义指导。此外，本文提出了两个新的一致性标准，深度一致性损失和语义一致性损失，以对齐教师和学生模型之间的 ray distribution 和 affinity matrix 。对 Occ3D 和 nuScenes 数据集的大量实验表明，RadOcc 可以显着提高各种 3D 占用预测方法的性能。本文的方法在 Occ3D 挑战基准上取得了最先进的结果，并且大大优于现有已发布的方法。本文相信本文的工作为场景理解中的跨模态学习开辟了新的可能性。

以上就是跨模态占据性知识的学习：使用渲染辅助蒸馏技术的RadOcc的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/430379.html

3d 预测

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

数字时代数据现代化的重要价值

上一篇 2025年11月7日 13:31:04

三星Galaxy Z系列智能生态体验新篇章多模态AI体验会川渝站开启

下一篇 2025年11月7日 13:31:34

利用纯CSS创建 3D 穿梭效果（附代码）

怎么创建3d 穿梭效果？实现一种加速动画效果？下面本篇文章就来给大家介绍一下如何使用纯css来轻松搞定它！希望对大家有所帮助！周末在家习惯性登陆 Apex，准备玩几盘。在登陆加速器的过程中，发现加速器到期了。我一直用的腾讯网游加速器，然而点击充值按钮，提示最近客户端升级改造，暂不支持充值（这个操…

程序猿
2025年12月24日 • 好文分享
0000
纯CSS3实现3d立体文字效果（源码分析）

本篇文章带大家了解一下3d文字效果的实现原理，没有考虑代码的复用性和可移植性，有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。 1.单单纯纯的效果一为了简化操作，我们使用和上一篇文章《纯CSS3文字效果推荐》一样的文档结构，后面的效果大差小不差，也就不再列出。前端开发whqet …

程序猿
2025年12月24日 • 好文分享
0000
纯CSS3实现3D翻转效果的代码示例

本篇文章给大家带来的内容是关于纯CSS3实现3D翻转效果的代码示例，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。作为前端开发人员的必修课，CSS3能带我们完成许多基本动效，本期我们将用CSS3实现hover翻转效果~ 第一步非常简单，我们简单画1个演示方块，为其添加transit…

程序猿
2025年12月24日 • 好文分享
0000
CSS3 3D旋转rotate效果的使用介绍

这篇文章主要为大家详细介绍了css3 3d旋转rotate效果实例，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文实例为大家分享了CSS3 3D旋转rotate效果实例，供大家参考，具体内容如下效果图：示例代码立即学习“前端免费学习笔记（深入）”； 3D旋转的Demo #experim…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

如何利用CSS3实现3D翻书效果

这篇文章主要介绍了css3实现3d翻书效果，基于css3新属性animation及transform实现类似翻书效果，具有一定的参考价值，感兴趣的小伙伴们可以参考一下先上效果图：（样式有点丑，可以忽略一下下，效果出来了就好，后期加到其他项目中方便更改0.0）类似翻书效果，原本的意思是使用JS来控…

程序猿
2025年12月24日
0000
好文分享

关于css过渡和3D效果的简单实现

下面为大家带来一篇css过渡+3d效果的简单实现。内容挺不错的，现在就分享给大家，也给大家做个参考。 css过渡+3D效果的简单实现 guodu#wp{ border: 1px solid red; width: 500px; height: 500px; background-color: pin…

程序猿
2025年12月24日
0000
用css3简单的制作3d半透明立方体图片详解

new document //css部分html{font-size:62.5%;}img{width:300px;height:300px;} #stage{//搭建一个舞台margin-top:200px;margin-left:auto;margin-right:auto;width:300p…

程序猿
好文分享 2025年12月23日
0000
教你玩转CSS3的3D效果

css3的3d起步要玩转css3的3d，就必须了解几个词汇，便是透视(perspective)、旋转(rotate)和移动(translate)。透视即是以现实的视角来看屏幕上的2d事物，从而展现3d的效果。旋转则不再是2d平面上的旋转，而是三维坐标系的旋转，就包括x轴，y轴，z轴旋转。平移同理。…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

如何使用C++进行时间序列分析和预测？

使用 c++++ 进行时间序列分析和预测涉及以下步骤：安装必需的库预处理数据提取特征 (acf、ccf、sdf)拟合模型 (arima、sarima、指数平滑)预测未来值使用 C++ 进行时间序列分析和预测时间序列分析是一项用于预测未来值的技术，它广泛应用于金融、医疗保健和科学等领域。本文将介绍…

程序猿
2025年12月18日
0000
好文分享

Python底层技术揭秘：如何实现模型训练和预测

Python底层技术揭秘：如何实现模型训练和预测，需要具体代码示例作为一门易学易用的编程语言，Python在机器学习领域中被广泛使用。Python提供了大量的开源机器学习库和工具，比如Scikit-Learn、TensorFlow等。这些开源库的使用和封装为我们提供了很多便利，但如果我们要深入了解…

程序猿
2025年12月13日
0000
好文分享

如何在Python中利用机器学习算法进行数据挖掘和预测

如何在Python中利用机器学习算法进行数据挖掘和预测引言随着大数据时代的到来，数据挖掘和预测成为了数据科学研究的重要组成部分。而Python作为一种简洁优雅的编程语言，拥有强大的数据处理和机器学习库，成为了数据挖掘和预测的首选工具。本文将介绍如何在Python中利用机器学习算法进行数据挖掘和预测…

程序猿
2025年12月13日
0000
好文分享

Django Prophet在人力资源管理中的应用：预测员工流失率

Django Prophet在人力资源管理中的应用：预测员工流失率引言：人力资源管理一直以来都是企业管理中不可忽视的一个重要环节。其中，员工流失率是一个关键的指标，对企业的稳定发展有着直接的影响。为了提前预测员工流失率，帮助企业采取及时有效的措施来留住人才，近年来，先进的预测分析技术逐渐被引入到人…

程序猿
2025年12月13日
0000
好文分享

如何使用Django Prophet预测交通拥堵情况？

如何使用Django Prophet预测交通拥堵情况？引言交通拥堵是每个城市都面临的普遍问题。解决交通拥堵需要对交通流量进行准确预测，以便采取相应的措施来缓解拥堵情况。本文将介绍如何使用Django Prophet模块来预测交通拥堵情况，并附带详细的代码示例。 Django Prophet简介Dj…

程序猿
2025年12月13日
0000
当贝X5S怎样看3D

当贝X5S观看3D影片无立体效果时，需开启3D模式并匹配格式：1. 播放3D影片时按遥控器侧边键，进入快捷设置选择3D模式；2. 根据片源类型选左右或上下3D格式；3. 可通过首页下拉进入电影专区选择3D内容播放；4. 确认片源为Side by Side或Top and Bottom格式，并使用兼容…

程序猿
2025年12月6日 • 软件教程
1000
《无限世界》【宇宙奥秘】盛大开服四大职业任您挑选

2024年11月2日14:00，《无限世界》新服揭幕，期待您的探索！领取媒体礼包与享受新服专享活动，就可以体验畅玩多元宇宙的乐趣！快来精选只属于您的职业吧！以下是每个职业的简要介绍：一、科幻战士（特种兵）特点：科幻战士拥有强大的科技装备和高超的战斗技巧。他们擅长使用各种高科技武器，如激光枪、电…

程序猿
2025年12月2日 • 行业动态
0000
硬件教程

国产屏下 3D 人脸识别技术进入测试阶段华为还是小米首发？

7 月 14 日，”数码闲聊站” 消息称，有厂商正在实验室中对国产屏下 3d 人脸识别技术进行版本测试，这表明该技术正逐步迈向成熟，未来有望在智能手机领域实现应用。近年来，屏下 3D 人脸识别技术成为智能手机设计的重要突破，其目标是将 3D 人脸识别模块完全置于屏幕下方，从…

程序猿
2025年12月2日
1000
3D视觉绕不开的点云配准！一文搞懂所有主流方案与挑战

作为点集合的点云有望通过3d重建、工业检测和机器人操作中，在获取和生成物体的三维（3d）表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准，即获得一个空间变换，该变换将在两个不同坐标中获得的两个点云对齐并匹配。这篇综述介绍了点云配准的概述和基本原理，对各种方法进行了系统的分类和比较，并解…

程序猿
2025年12月1日 • 科技
0000
荣耀 Magic8 Pro 真机实拍：独享 3D 人脸识别的骁龙 8 至尊旗舰

9 月 30 日消息，知名数码博主“数码闲聊站”在社交平台曝光了荣耀 magic8 pro 的实机图。该机型将成为同期唯一搭载第五代骁龙 8 至尊版并支持 3d 人脸识别的旗舰手机，预计将于 10 月正式亮相。图片来源：微博 @数码闲聊站从真机图可见，荣耀 Magic8 Pro 采用等深微曲面屏…

程序猿
2025年11月30日 • 硬件教程
0000
《无限世界》多元宇宙探险之旅 “神将集结”服务器明盛启

2025年1月11日14:00，备受期待的全球首款多元宇宙题材大型网游《无限世界》正式开启！全新服务器火热上线，百万玩家蓄势待发，准备开启这场史诗级的跨时空冒险之旅！官网现已开放手机预约、角色预创建和预充值，快来加入我们吧！《无限世界》巧妙融合了古老魔法、现代科技和星际文明，构建出一个充满无限可能…

程序猿
2025年11月28日 • 行业动态
0000
科技

帮林志颖修脸的3D重建，用两块A100加二维CNN就可以实现！

三维重建（3D Reconstruction）技术一直是计算机图形学和计算机视觉领域的一个重点研究领域。简单说，三维重建就是基于二维图像，恢复三维场景结构。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 据说，林志颖出车祸后，他的面部重建…

程序猿
2025年11月27日
0000