扩散模型与NeRF结合，清华文生提出3D新方法达到SOTA

程序猿 • 2025年11月7日 21:59:35 • 用户投稿 • 阅读 0

用文字合成3d图形的ai模型，又有了新的sota！

近日，清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。

无论是不同视角间的一致性，还是与提示词的匹配度，都比此前大幅提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

文生3D是3D AIGC的热点研究内容，得到了学术界和工业界的广泛关注。

刘永进教授课题组此次提出的新模型叫做TICD（Text-Image Conditioned Diffusion），在T3Bench数据集上达到了SOTA水平。

目前相关论文已经发布，代码也即将开源。

测评成绩已达SOTA

为了评估TICD方法的效果，研究团队首先进行了定性实验，并对比了此前一些较好的方法。

结果显示，用TICD方法生成的3D图形质量更好、图形更清晰，与提示词的匹配程度也更高。

图片

为了进一步评估这些模型的表现，团队在T3Bench数据集上将TICD与这些方法进行了定量测试。

结果显示，TICD在单对象、单对象带背景、多对象这三个提示集上都取得了最好的成绩，证明了它在生成质量和文本对齐性上都具有整体优势。

图片

此外，为了进一步评估这些模型的文本对齐性，研究团队还对3D物体渲染得到的图片与原始提示词的CLIP余弦相似度上进行了测试，结果依然是TICD的表现最佳。

那么，TICD方法是如何实现这样的效果的呢？

文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

56 查看详情

将多视角一致性先验纳入NeRF监督

目前主流的文本生成3D方法大多使用预训练的2D扩散模型，通过得分蒸馏采样（Score Distillation Sampling, SDS）优化神经辐射场（NeRF）来生成全新的3D模型。

然而，这种预训练扩散模型提供的监督仅限于输入的文本本身，并未约束多视角间的一致性，可能会出现生成几何结构较差等问题。

为了在扩散模型的先验中引入多视角一致性，一些最新的研究通过使用多视角数据对2D扩散模型进行微调，但仍然缺乏细粒度的视角间连续性。

为了解决这一挑战，TICD方法将以文本为条件的和图像为条件的多视角图像纳入NeRF优化的监督信号中，分别保证了3D信息与提示词的对齐和3D物体不同视角间的强一致性，有效提升了生成3D模型的质量。

图片

工作流程上，TICD首先采样若干组正交的参考相机视角，使用NeRF渲染出对应的参考视图，然后对这些参考视图运用基于文本的条件扩散模型，约束内容与文本的整体一致性。

在此基础上选取若干组参考相机视角，并对于每个视角渲染一个额外新视角下的视图。接着以这两个视图与视角间的位姿关系作为新条件，使用基于图像的条件扩散模型约束不同视角间的细节一致性。

结合两种扩散模型的监督信号，TICD可对NeRF网络的参数进行更新并循环迭代优化，直到获得最终的NeRF模型，并渲染出高质量、几何清晰且与文本一致的3D内容。

此外，TICD方法可以有效消除现有方法面对特定文本输入时可能产生的几何信息消失、错误几何信息过量生成、颜色混淆等问题。

论文地址：https://www.php.cn/link/8553adf92deaf5279bcc6f9813c8fdcc

以上就是扩散模型与NeRF结合，清华文生提出3D新方法达到SOTA的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/448712.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

java怎么转数组

上一篇 2025年11月7日 21:59:29

电脑键盘打不了字按哪个键恢复键盘失灵快速恢复方法一键搞定打字问题

下一篇 2025年11月7日 21:59:41

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
好文分享 2025年12月21日
0000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
1000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
0000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
1000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 用户投稿
2000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！的详细内容，更多请关注…

程序猿
2025年12月2日
0000
Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

使用Writesonic可有效扩写文章：一、用“Continue Writing”功能生成连贯续写；二、通过“Explain this in detail with examples”指令深化内容；三、以“Provide a counter-argument”引入多视角论述；四、利用FAQ生成器创建…

程序猿
2025年12月2日 • 用户投稿
0000
探究词表选择对语言模型训练的影响：一项具有突破性的研究

语言模型受不同词表的影响有哪些？如何平衡这些影响？在最近的一项实验中，研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT，一种小规模的架构（基于GPT-2 SMALL），共训练了12个模型。NanoGPT的网络架构配置为：12个注意力头、12层transformer，…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
2000
生产式AI驱动的主机自动化测试

译者 | 陈峻审校 | 重楼将传统大型主机应用的代码和数据迁移到现代化技术架构上，被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中，这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力，同时降低成本和提高安全性。这种…

程序猿
2025年12月2日 • 用户投稿
0000
「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

在普渡大学数字孪生实验室的最新研究中，科学家们采用了一项革命性技术——利用大型语言模型（llm）来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性，有望提高车辆对驾驶指令的理解和响应速度。这项技术的关键是Talk2Drive框架，旨在利用人类自然语言来操控自动驾驶汽…

程序猿
2025年12月2日 • 用户投稿
0000
变革性趋势：生成式人工智能及其对软件开发的影响

人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法，对设计、开发、测试和部署等各个方面都会产生深远影响。对于企图进入动态软件开发领域的企业来说，生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后，公司可以大幅提升生产效率、缩短…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
2000
Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

这一周，OpenAI视频AI工具Sora一出现，可谓是炸翻了天。「饭碗保不住了」的恐惧，真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片不过，亚马逊的一位工程师Cameron Gould则认为，其实并不必对AI如…

程序猿
2025年12月2日 • 用户投稿
0000
努比亚推出自研星云大模型：编程性能国内排名第一

7月23日消息，今天下午，努比亚举行努比亚ai+双旗舰新品发布会，推出自研的星云大模型。近年来，ai技术正值井喷式的爆发，努比亚定义了“al+”的产品战略和理念，联合ai大模型研发团队潜心钻研，重磅推出自研的星云大模型，提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型，模型能力行业遥遥领…

程序猿
2025年12月2日 • 用户投稿
0000
抢在竞争对手苹果之前！Meta发布最新款VR头戴设备

6月1日周四，meta公司ceo马克・扎克伯格抢在苹果公司wwdc大会召开之前，发布了该公司最新一代虚拟现实（vr）头显quest 3，499美元起售。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Quest 2于2020年秋季面市，售价…

程序猿
2025年12月2日 • 用户投稿
0000
思维链如何释放语言模型的隐藏能力？最新理论研究揭示其背后奥秘

大模型涌现中最神秘的现象之一是思维链提示（cot），尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢？它背后成功的机制是什么？本文中，北大的几位研究者证明了cot在实现大语言模型（llm）推理中是不可或缺的，并从理论和实验角度揭示了cot如何释放llm的巨大潜力。最近的研究发…

程序猿
2025年12月2日 • 用户投稿
1000