
%ign%ignore_a_1%re_a_1%近期正式推出HunyuanWorld-Voyager,一款突破性的视频扩散框架,能够基于单张图像生成具有世界一致性的3D点云,支持用户按照自定义的相机轨迹进行沉浸式场景探索。
该模型被官方称为全球首个原生支持3D重建的超长距离世界模型,有望重塑AI驱动的虚拟现实、游戏开发以及仿真环境中的空间智能应用。HunyuanWorld-Voyager不仅能同步输出高精度的深度图与RGB视频,还可无需额外后处理步骤,直接用于高质量三维建模。
原生3D输出能力:摆脱对COLMAP等外部工具的依赖,可直接将点云视频导出为标准3D格式,实现即生成即使用的便捷流程。 创新3D内存机制:引入可扩展的世界缓存系统,确保在任意相机路径下保持几何结构的一致性。 卓越性能表现:在斯坦福WorldScore基准测试中位列榜首,同时在视频生成和3D重建任务中均展现出领先水平。
HunyuanWorld-Voyager的架构由两大核心模块构成。其一是“世界一致的视频扩散”模块,采用统一架构设计,能够在已有场景观测基础上,同步生成对齐的RGB视频与深度视频序列,保障全局场景的空间连贯性。其二是“长距离世界探索”模块,通过结合点云筛选机制与自回归推理,并引入上下文感知的一致性优化技术,实现高效、平滑的视频采样与场景延展。
为支撑模型训练,研发团队开发了一套高度自动化的数据构建引擎。该引擎能对任意输入视频自动估算相机位姿与真实尺度深度信息,完全无需人工标注,从而实现大规模、多场景训练数据的高效生成。依托这一流程,HunyuanWorld-Voyager融合了真实拍摄视频与虚幻引擎渲染内容,构建出一个涵盖超过10万段视频的大规模数据集。
实验证明,HunyuanWorld-Voyager在视频生成质量方面显著优于现有方法。在与四种开源可控制相机视频生成模型的对比中,其在PSNR、SSIM和LPIPS等多项指标上均取得最优结果,验证了其出色的视觉保真能力。同时,在3D重建任务中,所生成视频也展现出更强的几何一致性。
值得一提的是,HunyuanWorld-Voyager在WorldScore静态基准测试中斩获最高分,充分体现了其在相机路径控制与空间结构一致性方面的领先优势。这一突破不仅彰显了混元系列模型在3D生成领域的巨大潜力,也为未来智能空间建模技术的发展提供了全新方向。
以上就是腾讯开源具备原生 3D 重建能力的超长程世界模型:HunyuanWorld-Voyager的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/127681.html
微信扫一扫
支付宝扫一扫