文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

这真是太不可思议了!

现在只需打几个字就能轻松地创造出精美而高质量的3D模型了?

这不,国外一篇博客引爆网络,把一个叫MVDream的东西摆到了我们面前。

用户只需要寥寥数语,就可以创造出一个栩栩如生的3D模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

而且和之前不同的是,MVDream看起来是真的「懂」物理。

下面就来看看这个MVDream有多神奇吧~

MVDream

小哥表示,大模型时代,我们已经看到了太多太多文本生成模型、图片生成模型。而且这些模型的性能也越来越强大。

我们后来还亲眼目睹了文生视频模型的诞生,当然还有今天要提到的3D模型

想象一下,只需输入一句话,就能生成一个仿佛真实世界中存在的物体模型,甚至还包含所有必要的细节,这样的场景有多酷啊

而且这绝对不是一件简单的事,尤其是用户需要生成的模型所呈现的细节要足够逼真。

先来看看效果~

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

在同一个提示下,最右边展示的是MVDream的成品

肉眼可见5个模型的差距。前几个模型完全违背了客观事实,只有从某几个角度看才是对的。

比如前四张图片,生成的模型居然有不止两只耳朵。而第四张图片虽然看起来细节更丰满一点,但是转到某个角度我们能发现,人物的脸是凹进去的,上面还插着一只耳朵。

谁懂啊,小编一下就想起了之前很火的小猪佩奇正视图。

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

这是一种情况,从某些角度来看是向你展示的,但绝对不能从其他角度去看,会有生命危险

可最右边MVDream的生成模型显然不一样。无论3D模型怎样转动,你都不会觉得有任何反常规的地方。

这也就是之前提到的,MVDream对物理常识了如指掌,不会为了确保每个视图都有两只耳朵而制造一些奇奇怪怪的东西

小哥指出,判断一个3D模型是否成功的关键在于观察其不同视角是否逼真且质量是否高

而且还要保证模型在空间上的连贯性,而不是像上面多个耳朵的模型那样。

生成3D模型的主要方法之一,就是对摄像机的视角进行模拟,然后生成某一视角下所能看到的东西。

换个词,这就是所谓的2D提升(2D lifting)。就是将不同的视角拼接在一起,形成最终的3D模型。

出现上面多耳的情况,就是因为生成模型对整个物体在三维空间的样态信息掌握的不充分。而MVDream恰恰就是在这方面往前迈了一大步。

这个新模型解决了之前一直存在的3D视角下的一致性问题

分数蒸馏采样

这种方法被称为分数蒸馏采样(score distillation sampling),是由DreamFusion开发的

在开始学习分数蒸馏采样技术之前,我们需要先了解一下该方法所采用的架构

换句话说,这实际上只是另一种二维图像扩散模型,类似的还有DALLE、MidJourney和Stable Diffusion模型

更具体地说,一切的一切都是从预训练好的DreamBooth模型开始的,DreamBooth是一个基于Stable Diffusion生图的开源模型。

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

改变来了,这意味着事情发生了转变

研究团队后续所做的是,直接渲染一组多视角图像,而不是只渲染一张图像,这一步需要有各种物体的三维数据集才可以完成。

在这里,研究人员从数据集中获取了三维物体的多个视图,利用它们来训练模型,再使其向后生成这些视图。

具体做法是将下图中的蓝色自注意块改为三维自注意块,也就是说,研究人员只需要增加一个维度来重建多个图像,而不是一个图像。

在下图中,我们可以看到每个视图的模型中都输入了摄像机和时间步(timestep),以帮助模型了解哪个图像将用在哪里,以及需要生成的是哪种视图

现在,所有图像都连接在一起,生成也同样在一起完成。因此它们就可以共享信息,更好地理解全局的情况。

首先,将文本输入模型,然后通过训练模型从数据集中准确地重建物体

而这里也就是研究团队应用多视图分数蒸馏采样过程的地方。

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

现在,有了一个多视图的扩散模型,团队可以生成一个物体的多个视图了。

接下来,我们需要使用这些视图来重建一个与真实世界一致的三维模型,而不仅仅是视图

这里需要使用NeRF(neural radiance fields,神经辐射场)来实现,就像前面提到的DreamFusion一样。

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

在这一步中,我们的目标是冻结之前训练好的多视角扩散模型。换句话说,我们在这一步中只是使用上面各个视角的图片,而不再进行训练

在初始渲染的指导下,研究人员开始使用多视角扩散模型生成一些带有噪声的初始图像版本

为了让模型了解到需要生成不同版本的图像,研究人员添加了噪声,但同时仍然能够接收到背景信息

接下来,可以利用这个模型进一步生成更高质量的图像

添加用于生成该图像的图像,并移除我们手动添加的噪声,以便在下一步中使用该结果来指导和改进NeRF模型。

为了在下一步中生成更好的结果,这些步骤的目的是更好地理解NeRF模型应该集中在图像的哪个部分

不断重复这个过程,直到生成一个令人满意的3D模型

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

而对于多视角扩散模型的图像生成质量的评估,以及不同的设计会如何影响其性能的判断,该团队是这么操作的。

首先,他们比较了用于建立跨视角一致性模型的注意力模块的选择。

这些选项包括:

(1)视频扩散模型中广泛使用的一维时间自注意;

(2)在现有模型中增加全新的三维自注意模块;

(3)重新使用现有的二维自注意模块进行三维注意。

为了准确展示这些模块之间的差异,在这项实验中,研究人员采用了8帧的90度视角变化来训练模型,以更贴近视频的设置

在实验中,研究团队同时保持了较高的图像分辨率,即512×512作为原始的标清模型。如下图所示,研究人员发现,即使在静态场景中进行了如此有限的视角变化,时间自注意力仍然会受到内容偏移的影响,无法保持视角的一致性

团队假设,这是因为时间注意力只能在不同帧的相同像素之间交换信息,而在视点变化时,相应像素之间可能相距甚远。

另一方面,在不学习一致性的情况下,添加新的三维注意会导致严重的质量下降。

研究人员认为,这是因为从头开始学习新的参数会消耗更多的训练数据和时间,而对于这种三维模型有限的情况并不适用。他们提出了重新使用二维自注意机制的策略,以实现最佳的一致性而不降低生成质量

团队还注意到,如果将图像大小减小到256,视图数减小到4,这些模块之间的差异会小得多。然而,为了达到最佳一致性,研究人员在以下实验中根据初步观察做出了选择。

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

此外,研究人员在threestudio(thr)库中实现了多视角的分数蒸馏采样,并引入了多视角扩散的引导。该库在一个统一的框架下实现了最先进的文本到三维模型的生成方法

研究人员使用threestudio中的隐式容积(implicit-volume)作为三维表示的实现方式,其中包括多分辨率的哈希网格(hash-grid)

在研究摄像机视图时,研究人员采用了与渲染三维数据集时完全相同的方式对摄像机进行了俩人采样

在此之外,研究人员还对3D模型进行了10000步的优化,使用了AdamW优化器,并将学习率设置为0.01

在分数蒸馏采样中,最初的8000步中,最大和最小时间步长分别从0.98步降至0.5步和0.02步

渲染的起始分辨率是64×64,经过5000步逐渐增加至256×256

以下是更多的案例:

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

研究团队利用二维文本到图像模型,进行多视角合成,并通过迭代的过程,创建了文本到3D模型的方法

这种新方法目前还存在一些局限性,最主要的问题是生成的图像分辨率只有256×256像素,可以说非常低了

此外,研究人员还指出,执行这项任务的数据集的大小在某种程度上一定会限制这种方法的通用性,因为数据集的太小的话,就没办法更逼真的反应我们这个复杂的世界。

以上就是文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/483890.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 12:32:15
下一篇 2025年11月8日 12:34:01

相关推荐

  • web3.0怎么入局赚钱?普通人web3怎么赚钱

    普通人可通过五个方向在Web3.0中赚钱:1. NFT创作与交易,如艺术、音乐等数字作品上链确权,借助平台实现收入增长;2. 参与DeFi,通过提供流动性或使用%ignore_a_1%在合规金融场景中获利;3. 加入Play-to-Earn游戏,通过游戏资产交易或副业服务获得收益;4. 在Web3内…

    2025年12月8日
    000
  • AI+区块链的虚拟币有哪些?哪些更有潜力

    AI与区块链融合的核心在于解决算力、数据与信任瓶颈,2025年催生超240亿美元市场。1. 算力层中RNDR、AKT、RLC分别通过共享GPU、低成本租赁与隐私计算构建去中心化算力网络;2. 智能体层中VIRTUAL、FET、PAAL推动AI代理经济,实现资产管理和自动化交易;3. 数据与协议层TA…

    2025年12月8日
    000
  • 2025年5月27日的Lunarcrush Extrank,表演量子($ QNT),柜员($ trb)和Pancakeswap($ CAKE)领导

    trb紧随其后,分散式预言机解决方案的需求正在持续攀升。 pancakeswap的cake代币由于近期的协议升级及流动性激励措施,再次回到了榜单的高位。 加密货币社交情报平台Lunarcrush于5月27日发布了最新的影响力指数。此指数对比了顶级替代币的社交表现与市场动态,综合考量了它们的价格波动、…

    2025年12月8日
    000
  • ai生成视频入口

    ai生成视频入口: 即梦ai:jimeng.jianying.com DeepSeek:chat.deepseek.com 访问这些工具的官方网站后,通常在首页显眼位置会看到“AI 生成视频”或“一键生成视频”等按钮。点击进入后,根据页面指引输入视频主题、脚本内容以及风格偏好等信息,即可利用 AI …

    2025年12月6日 软件教程
    000
  • ai绘画软件免费排行榜 推荐十大免费ai绘画软件合集

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 笔魂AI 笔魂AI绘画-在线AI绘画、AI画图、AI设计工具软件 257 查看详情 推荐的十大免费AI绘画软件包括:1.文心一格:百度推出,支持多种风格生成。2.通义万相:阿里云打造,提供多场景…

    2025年12月5日 科技
    000
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • Pollinations.AI— 开源AI内容生成平台,提供免费文本和图像生成API

    pollinations.ai 是一个开源的ai内容生成平台,提供免费且易于使用的文本和图像生成api。pollinations.ai无需注册或api密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。pollinations.ai提供丰富的api接口和sdk,方…

    2025年12月4日 科技
    000
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000
  • 首届魔搭开发者大会举办,重磅发布开发者激励计划

    雷峰网讯 6 月 30 日,首届魔搭开发者大会在北京盛大召开。自 2022 年 11 月成立以来,经过两年多的快速发展,社区已聚集超过 500 家贡献机构,托管开源模型数量突破 7 万个,增长达 200 多倍;用户规模从 2023 年 4 月的 100 万迅速扩展至目前的 1600 万,增幅约 16…

    2025年12月2日
    000
  • Go语言中正确地向切片追加元素:理解变量作用域与短声明

    本文深入探讨了Go语言中向切片追加元素时常见的陷阱——变量作用域与短声明(:=)的误用。通过分析一个具体的SQL查询结果切片构建案例,我们解释了为何在循环内部使用 := 会导致变量遮蔽和数据丢失,并提供了使用赋值操作符 = 进行正确追加的解决方案,帮助开发者避免此类编译错误和逻辑问题。 在go语言开…

    2025年12月2日 后端开发
    000
  • mysql能存储多少条数据

    %ignore_a_1%是中小型网站普遍使用的数据库之一,可是有很多人都并不清楚mysql到底能支持多大的数据量。下面我将带大家了解一下。 其实MySQL单表的上限,主要与操作系统支持的最大文件大小有关。 官方的介绍: MySQL 3.22 限制的表大小为4GB。由于在MySQL 3.23 中使用了…

    2025年12月2日 数据库
    000

发表回复

登录后才能评论
关注微信