何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

程序猿 • 2025年11月11日 10:13:10 • 用户投稿 • 阅读 0

大佬何恺明还未正式入职mit，但和mit的第一篇合作研究已经出来了：

他和MIT师生一起开发了一个自条件图像生成框架，名叫RCG（代码已开源）。

这个框架结构非常简单但效果拔群，直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

它生成的图像不需要任何人类注释（也就是提示词、类标签什么的），就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件图像生成的水平，还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说：

有条件和无条件生成任务之间长期存在的性能差距，终于在这一刻被弥补了。

那么，它究竟是如何做到的呢？

类似自监督学习的自条件生成

首先，所谓无条件生成，就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种训练方式很困难，因此一直与条件生成存在很大的性能差距——就像无监督学习无法与监督学习相比

正如自我监督学习的出现一样，它也改变了这种情况

在无条件图像生成领域，也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布，这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。

它有望超越条件图像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成图像发展得这么好，我们还要重视无条件生成）。

现在，基于这个自条件生成概念，何恺明团队首先开发了一个表示扩散模型RDM。

通过自监督图像编码器从图像中截取，主要用于生成低维自监督图像表示

它的核心架构如下：

首先是输入层，它负责将表征投射到隐藏维度C，接着是N个全连接块，最后是一个输出层，负责把隐藏层的潜在特征重新投射（转换）到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

这样的RDM具有两个优点：

它的特点之一是具有很强的多样性，另一个特点是计算开销很小

图像转图像AI

利用AI轻松变形、风格化和重绘任何图像

65 查看详情

在此之后，团队借助RDM提出了今天的主角：表示条件图像生成架构RCG

它是一个简单的自条件生成框架，由三个组件组成：

一个是SSL图像编码器，用于将图像分布转换为紧凑的表示分布。

一个是RDM，用于对该分布进行建模和采样。

最后是一个像素生成器MAGE，用于根据表示来处理图像像。

MAGE的工作方式是在token化的图像中添加随机掩码，并要求网络以从同一图像中提取的表示为条件来重建丢失的token

经过测试发现，最终结果显示，尽管这个自条件生成框架的结构简单，但其效果非常出色

在ImageNet 256×256上，RCG实现了3.56的FID和186.9的IS（Inception Score）得分。

相比之下，在它之前最厉害的无条件生成方法FID分数为7.04，IS得分为123.5。

对于RCG来说，它不仅在条件生成方面表现出色，而且在与该领域基准模型相比时，它的水平相当甚至超过

最后，在无分类器引导的情况下，RCG的成绩还能进一步提高到3.31（FID）和253.4（IS）。

团队表达了：

这些结果显示，条件图像生成模型具有巨大的潜力，可能预示着这一领域的新时代即将到来

团队介绍

本文一共三位作者：

一作是MIT博士生黎天鸿，本科毕业于清华姚班，研究方向为跨模态集成传感技术。

他的个人主页非常有趣，还专门放了一个菜谱合集——研究和烹饪是他最热衷的两件事情

另一位作者是MIT电气工程与计算机科学系（EECS）教授、MIT无线网络和移动计算中心主任Dina Katabi，她是今年斯隆奖的获得者，并已当选美国国家科学院院士。

最后，通讯作者为何恺明，他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系，与Dina Katabi成为同事。

请点击以下链接查看论文：https://arxiv.org/abs/2312.03701

以上就是何恺明与MIT合作：简单框架实现无条件图像生成的最新突破的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/628804.html

模型训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

现在做应用软件开发必须会编程么？

上一篇 2025年11月11日 10:13:00

企业APP开发代理费用一般需要多少钱？

下一篇 2025年11月11日 10:13:11

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
1000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
0000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 用户投稿
2000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！的详细内容，更多请关注…

程序猿
2025年12月2日
0000
探究词表选择对语言模型训练的影响：一项具有突破性的研究

语言模型受不同词表的影响有哪些？如何平衡这些影响？在最近的一项实验中，研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT，一种小规模的架构（基于GPT-2 SMALL），共训练了12个模型。NanoGPT的网络架构配置为：12个注意力头、12层transformer，…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
1000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 用户投稿
8000
努比亚推出自研星云大模型：编程性能国内排名第一

7月23日消息，今天下午，努比亚举行努比亚ai+双旗舰新品发布会，推出自研的星云大模型。近年来，ai技术正值井喷式的爆发，努比亚定义了“al+”的产品战略和理念，联合ai大模型研发团队潜心钻研，重磅推出自研的星云大模型，提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型，模型能力行业遥遥领…

程序猿
2025年12月2日 • 用户投稿
0000
思维链如何释放语言模型的隐藏能力？最新理论研究揭示其背后奥秘

大模型涌现中最神秘的现象之一是思维链提示（cot），尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢？它背后成功的机制是什么？本文中，北大的几位研究者证明了cot在实现大语言模型（llm）推理中是不可或缺的，并从理论和实验角度揭示了cot如何释放llm的巨大潜力。最近的研究发…

程序猿
2025年12月2日 • 用户投稿
1000
BAT方法：AAAI 2024首个多模态目标追踪通用双向适配器

目标跟踪是计算机视觉的基础任务之一，近年来，单模态（RGB）目标跟踪取得了重大进展。然而，由于单一成像传感器的限制，我们需要引入多模态图像（如RGB、红外等）来弥补这一缺陷，以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息，增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

程序猿
2025年12月1日 • 用户投稿
1000
想训练类Sora模型吗？尤洋团队OpenDiT实现80%加速

Sora 在 2024 年初的惊艳表现成为了新的标杆，激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望，争分夺秒地努力着。根据 OpenAI 披露的技术报告，Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式，并通过 Transformer 和…

程序猿
2025年12月1日 • 用户投稿
0000
微软6页论文爆火：三进制LLM，真香！

这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM，都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的…

程序猿
2025年12月1日 • 用户投稿
0000
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

在标准的UNet结构中，long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。然而，在一些著名的扩散模型工作中，比如Imagen， Score-based generati…

程序猿
2025年12月1日 • 用户投稿
0000
揭秘扩散模型背后的“硬核骨架”：一文读懂Backbone在生成艺术与智能决策中的关键作用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子：揭开扩散模型及其“脊梁骨”的神秘面纱如今，AI创作的精美画作、音视频内容层出不穷，其中有一项技术犹如魔法般从无到有地创造出惊艳作品，那就是扩散模型。而在其运作机制的核心深处，有一个至关重…

程序猿
2025年12月1日 • 用户投稿
0000
LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

过去的图像生成模型经常因为主要呈现白人形象而受到批评，而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎，与历史事实出现显著偏差，令用户感到惊讶。谷歌声称，该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中，还表现在通常将一些提示视为敏感提示，进…

程序猿
2025年12月1日 • 用户投稿
0000

发表回复

登录后才能评论

何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

类似自监督学习的自条件生成

团队介绍

关于作者

相关推荐

发表回复