CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

单目动态场景(monocular dynamic scene)是指使用单眼摄像头观察和分析的动态环境,其中物体可以在场景中自由移动。单目动态场景重建在理解环境中的动态变化、预测物体运动轨迹以及生成动态数字资产等任务中具有关键意义。利用单目视觉技术,可以实现动态场景的三维重建和模型估计,帮助我们更好地理解和处理动态环境中的各种情况。这种技术不仅可应用于计算机视觉领域,还可以在自动驾驶、增强现实和虚拟现实等领域发挥重要作用。通过单目动态场景重建,我们可以更准确地捕捉环境中物体的运动

随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。

来自浙江大学和字节跳动的研究团队指出,上述问题的核心在于基于光线投射(ray casting)的 NeRF pipeline 通过逆向映射(backward-flow)将观测空间(observation space)映射到规范空间(canonical space)时出现了准确性和清晰性方面的挑战。逆向映射对于学习结构的收敛并不理想,导致目前的方法在 D-NeRF 数据集上仅能达到 30+ 级别的 PSNR 渲染指标。

为了解决这个挑战,该研究团队提出了一种基于光栅化的单目动态场景建模流程。他们首次将变形场与3D高斯结合,创造了一种新的方法,实现了高质量的重建和新视角渲染。这项研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉领域顶级国际学术会议CVPR 2024接受。这项工作中独特的地方在于,它是首个将变形场应用于3D高斯以拓展到单目动态场景的研究。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

项目主页:https://ingra14m.github.io/Deformable-Gaussians/

论文链接:https://arxiv.org/abs/2309.13101

代码:https://github.com/ingra14m/Deformable-3D-Gaussians

实验结果表明,变形场能够有效地将规范空间中的3D高斯前向映射精确地映射到观测空间。在D-NeRF数据集上,实现了10%以上的PSNR提升。此外,在真实场景中即使相机位姿不够准确,也能够增加渲染细节。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                    图 1 HyperNeRF 真实场景的实验结果。

相关工作

动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染,动态重建领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场,实现了稳健的动态场景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。

3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量,还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。

研究思想

Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式,不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。

该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说,该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间,随后通过变形场,以规范空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场,该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline,经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。

此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代,规范空间的 3D 高斯的位置参数几乎不再变化。

研究团队发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(Multilayer Perceptron,MLP),是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。

为了缓解这个问题,该研究创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。

图 2 展示了该研究的 pipeline,详情请参见论文原文。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

笔目鱼英文论文写作器 笔目鱼英文论文写作器

写高质量英文论文,就用笔目鱼

笔目鱼英文论文写作器 87 查看详情 笔目鱼英文论文写作器

                                图 2 该研究的 pipeline。

结果展示

该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                       图 3 该研究在 D-NeRF 数据集上的定性实验对比结果。

该研究提出的方法不仅在视觉效果上取得了大幅度的提升,在渲染的定量指标上也有着相应的改进。值得注意的是,研究团队发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较,该研究使用了 Lego 的验证集作为指标测量的基准。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                  图 4 在合成数据集上的定量比较。

如图 4 所示,该研究在全分辨率(800×800)下对比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。该研究提出的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。

该研究提出的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示,该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明,即使没有对高光反射表面进行特殊处理,该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS,取得了最佳的渲染效果。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                                     图 5 真实场景方法对比。

虽然 MLP 的引入增加了渲染开销,但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构,我们依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400×400),68(800×800)。
此外,该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示,该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向渲染(Inverse Rendering),SLAM 与自动驾驶等。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

                               图6 深度可视化。

作者简介

论文第一作者:杨子逸,浙江大学硕士二年级,主要研究方向为三维高斯、神经辐射场、实时渲染等。
论文其他作者:高新宇,浙江大学硕士三年级,主要研究方向为神经辐射场,隐式场景组合。
张宇晴:浙江大学硕士二年级,主要研究方向为 3D 生成,逆向渲染。

论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。

Email: jin@cad.zju.edu.cn

个人主页:http://www.cad.zju.edu.cn/home/jin/

以上就是CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/621008.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:29:40
下一篇 2025年11月11日 06:31:18

相关推荐

  • 制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了

    自己动手做过莫比乌斯带吗? Waymark Waymark是一个视频制作工具,帮助企业快速轻松地制作高影响力的广告。 79 查看详情 莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易…

    2025年12月1日 科技
    000
  • 数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

    腾讯的研究团队进行了一项关于agent的可拓展性的研究。他们发现,通过简单的采样投票,大型语言模型(llm)的性能随着实例化agent数量的增加而增强。这项研究首次在各种场景中验证了这一现象的普遍性,并与其他复杂方法进行了对比,探讨了这一现象背后的原因,并提出了进一步发挥scaling效应的方法。 …

    2025年12月1日 科技
    000
  • 吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

    大型语言模型 (llm) 被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。 研究人员最近提出了一种新的结构化生成语言(Structured Generation Language),称为SGL…

    2025年12月1日 科技
    000
  • 淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

    9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——megatron-llama,旨在让技术开发者们能够更方便的提升大语言模型训练性能,降低训练成本,并且保持和 llama 社区的兼容性。测试显示,在 32 卡训练上,相比 huggingface 上直接获得的代码版本,megatr…

    2025年12月1日 科技
    000
  • 复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来

    近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受…

    2025年12月1日 科技
    000
  • 选择GPT-3.5、还是乔丹Llama 2等开源模型?综合比较后答案有了

    通过对 gpt-3.5 和 llama 2 在不同任务上的参数对比,我们可以得知在什么情况下选择 gpt-3.5,什么情况下选择 llama 2 或其他模型。 显然,对 GPT-3.5 进行的扭矩是非常昂贵的。本文通过实验来验证手动扭矩模型是否可以接近 GPT-3.5 的性能,而只是成本 GPT-3…

    2025年12月1日 科技
    000
  • 人工智能将如何增强平台工程和DevEx?

    作者 | heather joslyn 请将以下内容重新编写为中文:星璇 对于许多采用DevOps的公司来说,通过提高开发人员生产力来扩展规模和创造价值是一个巨大的挑战。在本文中,我们讨论了平台工程中最新的人工智能驱动方法。 1、AI驱动的DevOps平台 Digital.ai是一家行业领先的由AI…

    2025年12月1日
    000
  • 4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议

    powerinfer 提高了在消费级硬件上运行 ai 的效率 上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。                                   PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了…

    2025年12月1日 科技
    000
  • 用扩散模型生成网络参数,LeCun点赞尤洋团队新研究

    如果你有被 sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅本站不久前的报道《爆火sora背后的技术,一文综述扩散模型的最新发展方向》。 最近,由新加坡国立大学的尤洋团队、加州…

    2025年12月1日 科技
    000
  • Salesforce与MIT研究者合作开源GPT-4改稿教程,实现更少字数却传递更多信息

    自动摘要技术近年来取得了显著的进步,这主要得益于范式的转变。过去,该技术主要依赖于在标注数据集上进行有监督微调,但现在则采用了大语言模型(llm)进行零样本 prompt,例如gpt-4。通过细致的 prompt 设置,不需要额外的训练,就能实现对摘要长度、主题、风格等方面特征的精细控制 但一个方面…

    2025年11月28日 科技
    000
  • DeepMind:谁说卷积网络不如ViT?

    本文对按比例扩大的 nfnets 进行了评估,并挑战了 convnets 在大规模问题上表现不如 vits 的观点 深度学习的早期成功可归功于卷积神经网络(ConvNets)的发展。近十年来,ConvNets 主导了计算机视觉基准测试。然而近年来,它们越来越多地被 ViTs(Vision Trans…

    2025年11月28日 科技
    000
  • 14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

    meta的视频合成新框架给我们带来了一些惊喜 就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图…

    2025年11月28日 科技
    000
  • 实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

    生成式模型进入「实时」时代? 使用文生图和图生图已经不再是一件新鲜事了。然而,在使用这些工具的过程中,我们发现它们常常运行缓慢,导致我们需要等待一段时间才能获取生成的结果 但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索…

    2025年11月27日 科技
    000
  • 媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…

    2025年11月27日 科技
    300
  • 释放绝佳的编程资源,巨型模型和智能体将引发更强劲的力量

    正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇,具有巨大潜能的传统大型语言模型,在经过代码语料的预训练 / 精调后,掌握了更超出本源的执行力。 具体来说,进阶版的大模型在编写代码、更强推理、自主援引执行接口、自主完善等方面都获得了提升,这将为它作为 AI 智能体、执行下游任务时方方面面…

    2025年11月26日 科技
    000
  • 谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

    效果更稳定,实现更简单。 大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一…

    2025年11月26日 科技
    000
  • Meta无限长文本大模型来了:参数仅7B,已开源

    谷歌之后,Meta 也来卷无限长上下文。 transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力力和状态空间模型等次二次解决方案,但从以往经验来看,它们在预训练效率和下游任务准确性方面表现不佳。 近日,谷歌提出的Infini-Transformer引入了有效…

    2025年11月26日 科技
    000
  • CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…

    2025年11月26日 科技
    000
  • 人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

    AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…

    2025年11月26日 科技
    000
  • ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

    AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…

    2025年11月26日 科技
    000

发表回复

登录后才能评论
关注微信