逼真实时渲染:基于Street Gaussians的动态城市场景建模

实话实说,技术的更新速度确实非常快,这也导致了学术界中一些旧有的方法逐渐被新的方法所取代。最近,浙江大学的研究团队提出了一种名为gaussians的新方法,引起了广泛的关注。这种方法在解决问题上有着独特的优势,并且已经在工作中得到了成功的应用。尽管nerf在学术界逐渐失去了一些影

为了帮助尚未通过关卡的玩家们,我们来一起了解一下游戏解谜的具体方法吧。

要帮助还没有过关的玩家们,我们可以一起了解具体的解谜方法。为此,我找到了一篇关于解谜的论文,链接在这里:https://arxiv.org/pdf/2401.01339.pdf。大家可以通过阅读这篇论文来了解更多解谜的技巧。希望这对于玩家们能够有所帮助!

本文旨在解决从单目视频中建模动态城市街道场景的问题。最近的方法扩展了NeRF,将跟踪车辆姿态纳入animate vehicles,实现了动态城市街道场景的照片逼真视图合成。然而,它们的显著局限性在于训练和渲染速度慢,再加上跟踪车辆姿态对高精度的迫切需求。这篇论文介绍了Street Gaussians,一种新的明确的场景表示,它解决了所有这些限制。具体地说,动态城市街道被表示为一组点云,这些点云配备有语义logits和3D Gaussians,每一个都与前景车辆或背景相关联。

为了对前景对象车辆的动力学进行建模,可以使用可优化的跟踪姿态以及动态外观的动态球面谐波模型对每个对象点云进行优化。这种显式表示方法允许简单地合成目标车辆和背景,并且在半小时的训练内以133 FPS(1066×1600分辨率)进行场景编辑操作和渲染。研究人员对这种方法进行了多个具有挑战性的基准评估,其中包括KITTI和Waymo Open数据集。

实验结果表明,我们提出的方法在所有数据集上始终优于现有技术。尽管我们仅仅依赖于现成跟踪器的姿态信息,但是我们的表示方法提供的性能与使用真实姿态信息所实现的性能相当。

为了帮助还没有过关的玩家们,我给大家提供了一个链接:https://zju3dv.github.io/streetgaussians/,这里可以找到具体的解谜方法。大家可以点击链接参考一下,希望能帮到你们。

Street Gaussians方法介绍

给定从城市街道场景中的移动车辆捕获的一系列图像,本文的目标是开发一个能够为任何给定的输入时间步长和任何视点生成真实感图像的模型。为了实现这一目标,提出了一种新的场景表示,命名为Street Gaussians,专门用于表示动态街道场景。如图2所示,将动态城市街道场景表示为一组点云,每个点云对应于静态背景或移动车辆。显式基于点的表示允许简单地合成单独的模型,从而实现实时渲染以及编辑应用程序的前景对象分解。仅使用RGB图像以及现成跟踪器的跟踪车辆姿态,就可以有效地训练所提出的场景表示,通过我们的tracked车辆姿态优化策略进行了增强。

Street Gaussians概览如下所示,动态城市街道场景表示为一组具有可优化tracked车辆姿态的基于点的背景和前景目标。每个点都分配有3D高斯,包括位置、不透明度和由旋转和比例组成的协方差,以表示几何体。为了表示apperence,为每个背景点分配一个球面谐波模型,而前景点与一个动态球面谐波模型相关联。显式的基于点的表示允许简单地组合单独的模型,这使得能够实时渲染高质量的图像和语义图(如果在训练期间提供2D语义信息,则是可选的),以及分解前景目标以编辑应用程序

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

ViiTor实时翻译 ViiTor实时翻译

AI实时多语言翻译专家!强大的语音识别、AR翻译功能。

ViiTor实时翻译 116 查看详情 ViiTor实时翻译

实验结果对比

我们在Waymo开放数据集和KITTI基准上进行了实验。在Waymo开放数据集上,选择了6个记录序列,其中包含大量移动物体、显著的ego运动和复杂的照明条件。所有序列的长度约为100帧,选择序列中的每10张图像作为测试帧,并使用剩余的图像进行训练。当发现我们的基线方法在使用高分辨率图像进行训练时存在较高的内存成本时,将输入图像缩小到1066×1600。在KITTI和Vitural KITTI 2上,遵循MARS的设置,并使用不同的训练/测试分割设置来评估。在Waymo数据集上使用检测器和跟踪器生成的边界框,并使用KITTI官方提供的目标轨迹。

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

将本文的方法与最近的三种方法进行比较。

(1) NSG将背景表示为多平面图像,并使用每个目标学习的潜在代码和共享解码器来对运动目标进行建模。

(2) MARS基于Nerfstudio构建场景图。

(3) 3D高斯使用一组各向异性高斯对场景进行建模。

NSG和MARS都是使用GT框进行训练和评估的,这里尝试了它们实现的不同版本,并报告了每个序列的最佳结果。我们还将3D高斯图中的SfM点云替换为与我们的方法相同的输入,以进行公平比较。详见补充资料。

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians

原文链接:https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g

以上就是逼真实时渲染:基于Street Gaussians的动态城市场景建模的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/445843.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 20:44:11
下一篇 2025年11月7日 20:45:15

相关推荐

  • 瑞声科技亮相 2024 吴声年度演讲:想象例外,感知解决方案刷新场景流

    2024 年 8 月 4 日,新物种爆炸 · 吴声商业方法发布 2024 于北京如约启幕。现场,场景实验室创始人、新物种实验计划发起人吴声以 ” 成为自己 ” 为演讲主题,完成了多个场景品牌故事分享。作为新物种爆炸 2024 案例,瑞声科技感知解决方案进一步被推到台前,吸引了…

    2025年12月5日 硬件教程
    000
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • Pollinations.AI— 开源AI内容生成平台,提供免费文本和图像生成API

    pollinations.ai 是一个开源的ai内容生成平台,提供免费且易于使用的文本和图像生成api。pollinations.ai无需注册或api密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。pollinations.ai提供丰富的api接口和sdk,方…

    2025年12月4日 科技
    000
  • sql中怎么创建视图 视图创建的详细步骤解析

    视图是存储的sql查询,用于简化复杂查询、提高数据安全性和提供友好访问方式。创建视图的核心是使用create view语句,语法为create view view_name as select …,例如创建显示工资高于5000员工信息的视图。视图分为简单视图(基于单表、无聚合函数)和复杂…

    2025年12月3日 数据库
    000
  • StepAudio R1— 阶跃星辰开源的原生音频推理模型

    StepAudio R1是什么 stepaudio r1 是由阶跃星辰研发并开源的全球首款原生音频推理模型,标志着音频智能处理领域的重大突破。该模型采用创新的模态锚定推理蒸馏(mgrd)框架,有效解决了传统音频模型在复杂逻辑推理任务中表现不佳的问题,真正实现了基于声学特征的深度推理能力。在多项权威基…

    2025年12月2日 科技
    000
  • Udio怎样用风格模型仿流派_Udio用风格模型仿流派【流派模仿】

    一、选择与目标流派匹配的预训练风格模型,如“Neo-Soul Groove”用于灵魂乐;二、在提示栏输入流派关键词、参考艺术家及音乐结构描述;三、可选上传WAV/MP3参考音频,系统分析节奏、音色等特征;四、调整Groove Quantization、Harmonic Constraint等参数以强…

    2025年12月2日 科技
    000
  • ReplicaStudios怎样用情绪参数调戏感_ReplicaStudios用情绪参数调戏感【情绪演绎】

    通过调整ReplicaStudios的情绪参数可显著提升语音情感表现力:一、在文本输入界面添加情绪标签,选择如“anger”“joy”等情绪类型并设置0.0–1.0强度值;二、叠加多种情绪(如“fear”0.7+“surprise”0.5)以构建复杂情感层次,避免冲突失真;三、联动调节音高与语速,激…

    2025年12月2日 科技
    000
  • Gemini怎样用多模态分析图文数_Gemini用多模态分析图文数【多模分析】

    Gemini处理图文数据需启用多模态功能,1、选Gemini Pro Vision模型并开启multimodal选项;2、上传图像并关联文本构成请求体;3、图像编码为Base64或提供URL;4、用”parts”字段封装图文数据且图像在前;5、提示词明确任务目标与操作类型;6…

    2025年12月2日 科技
    000
  • sql中视图的用途有哪些 分享视图的3个实际应用场景与好处

    视图在sql中具有简化查询、保障数据安全和增强灵活性的作用。1. 视图通过封装复杂逻辑,如多表联结和聚合计算,使用户直接查询预定义结果,从而提升效率并减少错误;2. 通过限制访问特定字段(如隐藏薪资信息),实现敏感数据保护,并支持权限控制与合规要求;3. 可为不同部门定制所需数据结构,如市场部门仅关…

    2025年12月2日 数据库
    000
  • 真快!几分钟就把视频语音识别为文本了,不到10行代码

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 大家好,我是风筝 两年前,将音视频文件转换为文字内容的需求难以实现,但是如今只需几分钟便可轻松解决。 据说一些公司为了获取训练数据,已经对抖音、快手等短视频平台上的视频进行了全面爬取,然后将视频…

    2025年12月2日 科技
    000
  • 谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

    要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。 具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型(涉及文本…

    2025年12月2日 科技
    000
  • Kimi-Audio— Moonshot AI 开源的音频基础模型

    kimi-audio 是由 moonshot ai 推出的开源音频基础模型,专注于音频理解、生成和对话任务。它在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。其核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 llm 的设计,支持并行生成文本和…

    2025年12月2日
    000
  • oracle中的视图详解

    以下是我对Oracle中%ignore_a_1%的一些简单总结,希望和大家一起来学习探讨。 1.视图的概述 视图其实就是一条查询sql语句,用于显示一个或多个表或其他视图中的相关数据。视图将一个查询的结果作为一个表来使用,因此视图可以被看作是存储的查询或一个虚拟表。视图来源于表,所有对视图数据的修改…

    数据库 2025年12月2日
    000
  • 如何通过AI生成体育精彩集锦_体育视频AI精彩片段自动生成教程

    AI可自动提取体育赛事精彩瞬间:首先上传视频至AI平台并选择对应运动模型,系统通过动作、声音和观众反应识别高光时刻;其次本地部署TensorFlow等框架,利用预训练模型如SlowFast分析视频帧,筛选高置信度事件导出片段;最后融合解说关键词、音频峰值与画面动态,多模态对齐提升识别精度,生成高质量…

    2025年12月2日 科技
    000
  • AI视频剪辑免费入口 AI自动配音配字幕工具

    AI视频剪辑免费入口为https://app.spikes.studio,该平台支持视频上传、智能剪辑、自动配音配字幕,新用户完成任务可获10分钟免费额度,邀请好友还可叠加使用时长,适合个人创作者高效制作短视频。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek…

    2025年12月2日 科技
    000
  • mysql视图实例详解

    %ign%ignore_a_1%re_a_1%: 就是一个select语句(通常比较复杂),我们给其一个名字(视图名),以后,要使用(执行)该select语句,就方便了:用该视图名就可以了。(类似于函数的封装和调用) 创建视图 语法形式: create view 视图名 【(字段名1,字段名2,字段…

    2025年12月2日 数据库
    000
  • 哩布哩布AI怎么生成3D模型_哩布哩布AI图生3D功能最新教程

    使用哩布哩布AI生成2D图像并结合Tripo AI转换为3D模型,具体步骤包括:登录哩布哩布AI官网,选择合适模型并输入详细提示词生成正方形图像,下载后上传至Tripo AI进行自动3D重建,可导出PLY或GLB格式;为进一步提升效果,可借助DeepSeek优化提示词,并通过CherryStudio…

    2025年12月2日 科技
    000
  • 松鼠AI怎么下载学习资料_松鼠AI课后资料包一键下载教程

    可通过三种方式获取松鼠AI课后资料:一、使用学生端“资料下载”或“生成学习报告”功能导出PDF版知识点与错题;二、用浏览器开发者工具在Network中抓取已加载的视频、PDF等资源并保存;三、通过录屏软件录制教学过程,或截图保存静态内容。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无…

    2025年12月2日 科技
    000
  • Bee— 清华联合腾讯开源的全栈多模态大模型解决方案

    Bee是什么 bee是由清华大学与腾讯混元团队联合研发的高质量多模态大语言模型(mllm)项目,旨在突破当前开源模型因训练数据质量不足而导致的性能瓶颈。该项目的核心成果包括:honey-data-15m——一个包含约1500万高质量问答对的监督微调数据集,通过多阶段清洗流程和双层思维链(cot)扩展…

    2025年12月2日 科技
    000
  • 百度AI文心一言怎么创作歌曲_百度AI文心一言AI作曲入门教程

    首先通过文心一言生成歌词,输入具体主题与结构指令获取文本;再将歌词导入Suno、AIVA等AI作曲平台,设置风格、调式与节奏参数生成旋律伴奏;接着调整歌词断句与音节匹配旋律节奏,优化MIDI文件中的重音与节拍对应关系;最后利用ACE Studio等工具合成虚拟人声,添加滑音、气声等细节,并用Auda…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信