苹果“套娃”式扩散模型,训练步数减少七成!

苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。

利用这种方法,同样分辨率的图像,训练步数减少了超过七成。

在1024×1024的分辨率下,图片画质直接拉满,细节都清晰可见。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

苹果“套娃”式扩散模型,训练步数减少七成!

苹果把这项成果命名为MDM,DM就是扩散模型(Diffusion Model)的缩写,而第一个M则代表了套娃(Matryoshka)。

就像真的套娃一样,MDM在高分辨率过程中嵌套了低分辨率过程,而且是多层嵌套。

高低分辨率扩散过程同时进行,极大降低了传统扩散模型在高分辨率过程中的资源消耗。

苹果“套娃”式扩散模型,训练步数减少七成!

对于256×256分辨率的图像,在批大小(batch size)为1024的环境下,传统扩散模型需要训练150万步,而MDM仅需39万,减少了超七成。

另外,MDM采用了端到端训练,不依赖特定数据集和预训练模型,在提速的同时依然保证了生成质量,而且使用灵活。

苹果“套娃”式扩散模型,训练步数减少七成!

不仅可以画出高分辨率的图像,还能合成16×256²的视频。

苹果“套娃”式扩散模型,训练步数减少七成!

有网友评论到,苹果终于把文本连接到图像中了。

苹果“套娃”式扩散模型,训练步数减少七成!

那么,MDM的“套娃”技术,具体是怎么做的呢?

整体与渐进相结合

苹果“套娃”式扩散模型,训练步数减少七成!

在开始训练之前,需要将数据进行预处理,高分辨率的图像会用一定算法重新采样,得到不同分辨率的版本。

然后就是利用这些不同分辨率的数据进行联合UNet建模,小UNet处理低分辨率,并嵌套进处理高分辨率的大UNet。

通过跨分辨率的连接,不同大小的UNet之间可以共用特征和参数。

苹果“套娃”式扩散模型,训练步数减少七成!

MDM的训练则是一个循序渐进的过程。

虽然建模是联合进行的,但训练过程并不会一开始就针对高分辨率进行,而是从低分辨率开始逐步扩大。

可灵大模型 可灵大模型

可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型

可灵大模型 214 查看详情 可灵大模型

这样做可以避免庞大的运算量,还可以让低分辨率UNet的预训练可以加速高分辨率训练过程。

训练过程中会逐步将更高分辨率的训练数据加入总体过程中,让模型适应渐进增长的分辨率,平滑过渡到最终的高分辨率过程。

苹果“套娃”式扩散模型,训练步数减少七成!

不过从整体上看,在高分辨率过程逐步加入之后,MDM的训练依旧是端到端的联合过程。

在不同分辨率的联合训练当中,多个分辨率上的损失函数一起参与参数更新,避免了多阶段训练带来的误差累积。

每个分辨率都有对应的数据项的重建损失,不同分辨率的损失被加权合并,其中为保证生成质量,低分辨率损失权重较大。

在推理阶段,MDM采用的同样是并行与渐进相结合的策略。

此外,MDM利还采用了预训练的图像分类模型(CFG)来引导生成样本向更合理的方向优化,并为低分辨率的样本添加噪声,使其更贴近高分辨率样本的分布。

那么,MDM的效果究竟如何呢?

更少参数匹敌SOTA

图像方面,在ImageNet和CC12M数据集上,MDM的FID(数值越低效果越好)和CLIP表现都显著优于普通扩散模型。

其中FID用于评价图像本身的质量,CLIP则说明了图像和文本指令之间的匹配程度。

苹果“套娃”式扩散模型,训练步数减少七成!

和DALL E、IMAGEN等SOTA模型相比,MDM的表现也很接近,但MDM的训练参数远少于这些模型。

苹果“套娃”式扩散模型,训练步数减少七成!

不仅是优于普通扩散模型,MDM的表现也超过了其他级联扩散模型。

苹果“套娃”式扩散模型,训练步数减少七成!

消融实验结果表明,低分辨率训练的步数越多,MDM效果增强就越明显;另一方面,嵌套层级越多,取得相同的CLIP得分需要的训练步数就越少。

苹果“套娃”式扩散模型,训练步数减少七成!

而关于CFG参数的选择,则是一个多次测试后再FID和CLIP之间权衡的结果(CLIP得分高相对于CFG强度增大)。

苹果“套娃”式扩散模型,训练步数减少七成!

以上就是苹果“套娃”式扩散模型,训练步数减少七成!的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/475983.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 09:24:02
下一篇 2025年11月8日 09:28:39

相关推荐

  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    200
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 探究词表选择对语言模型训练的影响:一项具有突破性的研究

    语言模型受不同词表的影响有哪些?如何平衡这些影响? 在最近的一项实验中,研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT,一种小规模的架构(基于GPT-2 SMALL),共训练了12个模型。NanoGPT的网络架构配置为:12个注意力头、12层transformer,…

    2025年12月2日 科技
    100
  • ICCV’23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

    在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束! 今年的最佳论文奖,简直是“神仙打架”。 例如,获得最佳论文奖的两篇论文中,就包括颠覆文生图AI领域的著作——ControlNet。 自从开源以来,ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

    2025年12月2日 科技
    000
  • 谷歌:非等频采样时间序列表示学习新方法

    在时间序列问题中,有一种类型的时间序列不是等频采样的,即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究,但是在这种不规则采样的时间序列中研究比较少,并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别 今天介绍的这篇文章,在不规则采样的时间…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 令人惊讶的时间冗余方法:降低视觉Transformer计算成本的新途径

    Transformer最初是为自然语言处理任务而设计的,但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性,并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现 视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络(CNN)处理…

    2025年12月2日 科技
    200
  • 努比亚推出自研星云大模型:编程性能国内排名第一

    7月23日消息,今天下午,努比亚举行努比亚ai+双旗舰新品发布会,推出自研的星云大模型。近年来,ai技术正值井喷式的爆发,努比亚定义了“al+”的产品战略和理念,联合ai大模型研发团队潜心钻研,重磅推出自研的星云大模型,提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型,模型能力行业遥遥领…

    2025年12月2日 行业动态
    000
  • 思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘

    大模型涌现中最神秘的现象之一是思维链提示(cot),尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了cot在实现大语言模型(llm)推理中是不可或缺的,并从理论和实验角度揭示了cot如何释放llm的巨大潜力。 最近的研究发…

    2025年12月2日 科技
    000
  • BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器

    目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟…

    2025年12月1日 科技
    100
  • 想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

    Sora 在 2024 年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望,争分夺秒地努力着。 根据 OpenAI 披露的技术报告,Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式,并通过 Transformer 和…

    2025年12月1日 科技
    000
  • 微软6页论文爆火:三进制LLM,真香!

    这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的…

    2025年12月1日 科技
    000
  • 几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

    在标准的UNet结构中,long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。 然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generati…

    2025年12月1日 科技
    000
  • 揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重…

    2025年12月1日 科技
    000
  • LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训

    过去的图像生成模型经常因为主要呈现白人形象而受到批评,而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎,与历史事实出现显著偏差,令用户感到惊讶。谷歌声称,该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中,还表现在通常将一些提示视为敏感提示,进…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信