可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

在视觉生成领域迅速发展的进程中,扩散模型已经完全改变了这一领域的发展态势,其引入的文本引导生成功能标志着能力方面的深刻变革。

然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。

鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。

北京邮电大学的研究人员对T2I扩散模型的可控性生成进行了深入审查,概括了该领域的理论基础和实际进展。这项综述涵盖了最新的研究成果,为该领域的发展和应用提供了重要参考。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

论文:https://arxiv.org/abs/2403.04279代码:https://github.com/priv-creation/awesome-controllable-t2i-diffusion-models

我们的审查从简要介绍去噪扩散概率模型(DDPMs)和广泛使用的 T2I 扩散模型基础开始。

我们进一步探讨了扩散模型的控制机制,通过理论分析确定了在去噪过程中引入新条件的有效性。

此外,我们详细总结了该领域的研究情况,并按条件的角度将其分为特定条件生成、多条件生成以及通用可控性生成等不同类别。

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

图 1 利用T2I扩散模型可控生成示意图。在文本条件的基础上,加入「身份」条件来控制输出的结果。

分类体系

利用文本扩散模型进行条件生成的任务代表了一个多方面和复杂的领域。从条件角度来看,我们将这个任务分为三个子任务(参见图2)。

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

图 2 可控生成的分类。从条件角度来看,我们将可控生成方法分为三个子任务,包括具有特定条件的生成、具有多个条件的生成和通用可控生成。

大多数研究致力于如何在特定条件下生成图像,例如基于图像引导的生成和草图到图像的生成。

为了揭示这些方法的理论和特征,我们根据它们的条件类型进一步对其进行分类。

1. 利用特定条件生成:指引入了特定类型条件的方法,既包括定制的条件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比较直接的条件,例如ControlNet系列、生理信号-to-Image

2. 多条件生成:利用多个条件进行生成,对这一任务我们在技术的角度对其进行细分。

3. 统一可控生成:这个任务旨在能够利用任意条件(甚至任意数量)进行生成。

如何在T2I扩散模型中引入新的条件

小艺 小艺

华为公司推出的AI智能助手

小艺 549 查看详情 小艺

细节请参考论文原文,下面对这些方法机理进行简要介绍。

条件得分预测(Conditional Score Prediction)

在T2I扩散模型中,利用可训练模型(例如UNet)来预测去噪过程中的概率得分(即噪声)是一种基本且有效的方法。

在基于条件得分预测方法中,新颖条件会作为预测模型的输入,来直接预测新的得分。

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

其可划分三种引入新条件的方法:

1. 基于模型的条件得分预测:这类方法会引入一个用来编码新颖条件的模型,并将编码特征作为UNet的输入(如作用在cross-attention层),来预测新颖条件下的得分结果;

2. 基于微调的条件得分预测:这类方法不使用一个显式的条件,而是微调文本嵌入和去噪网络的参数,来使其学习新颖条件的信息,从而利用微调后的权重来实现可控生成。例如DreamBooth和Textual Inversion就是这类做法。

3. 无需训练的条件得分预测:这类方法无需对模型进行训练,可以直接将条件作用于模型的预测环节,例如在Layout-to-Image(布局图像生成)任务中,可以直接修改cross-attention层的attention map来实现设定物体的布局。

条件引导的得分评估

条件引导估的得分估计方法是通过条件预测模型(如上图Condition Predictor)反传梯度来在去噪过程中增加条件指导。

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

利用特定条件生成

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

1. Personalization(定制化):定制化任务旨在捕捉和利用概念作为生成条件行可控生成,这些条件不容易通过文本描述,需要从示例图像中进行提取。如DreamBooth,Texutal Inversion和LoRA。

2. Spatial Control(空间控制):由于文本很难表示结构信息,即位置和密集标签,因此使用空间信号控制文本到图像扩散方法是一个重要的研究领域,例如布局、人体姿势、人体解析。方法例如ControlNet。

3. Advanced Text-Conditioned Generation(增强的文本条件生成):尽管文本在文本到图像扩散模型中起着基础条件的作用,但该领域仍存在一些挑战。

首先,在涉及多个主题或丰富描述的复杂文本中进行文本引导合成时,通常会遇到文本不对齐的问题。此外,这些模型主要在英语数据集上训练,导致了多语言生成能力明显不足。为解决这一限制,许多工作提出了旨在拓展这些模型语言范围的创新方法。

4. In-Context Generation(上下文生成):在上下文生成任务中,根据一对特定任务示例图像和文本指导,在新的查询图像上理解并执行特定任务。

5. Brain-Guided Generation(脑信号引导生成):脑信号引导生成任务专注于直接从大脑活动控制图像创建,例如脑电图(EEG)记录和功能性磁共振成像(fMRI)。

6. Sound-Guided Generation(声音引导生成):以声音为条件生成相符合的图像。

7. Text Rendering(文本渲染):在图像中生成文本,可以被广泛应用到海报、数据封面、表情包等应用场景。

多条件生成

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」

多条件生成任务旨在根据多种条件生成图像,例如在用户定义的姿势下生成特定人物或以三种个性化身份生成人物。

在本节中,我们从技术角度对这些方法进行了全面概述,并将它们分类以下类别:

1. Joint Training(联合训练):在训练阶段就引入多个条件进行联合训练。

2. Continual Learning(持续学习):有顺序的学习多个条件,在学习新条件的同时不遗忘旧的条件,以实现多条件生成。

3. Weight Fusion(权重融合):用不同条件微调得到的参数进行权重融合,以使模型同时具备多个条件下的生成。

4. Attention-based Integration(基于注意力的集成):通过attention map来设定多个条件(通常为物体)在图像中的位置,以实现多条件生成。

通用条件生成

除了针对特定类型条件量身定制的方法之外,还存在旨在适应图像生成中任意条件的通用方法。

这些方法根据它们的理论基础被广泛分类为两组:通用条件分数预测框架和通用条件引导分数估计。

1. 通用条件分数预测框架:通用条件分数预测框架通过创建一个能够编码任何给定条件并利用它们来预测图像合成过程中每个时间步的噪声的框架。

这种方法提供了一种通用解决方案,可以灵活地适应各种条件。通过直接将条件信息整合到生成模型中,该方法允许根据各种条件动态调整图像生成过程,使其多才多艺且适用于各种图像合成场景。

2. 通用条件引导分数估计:其他方法利用条件引导的分数估计将各种条件纳入文本到图像扩散模型中。主要挑战在于在去噪过程中从潜变量获得特定条件的指导。

应用

引入新颖条件可以在多个任务中发挥用处,其中包括图像编辑、图像补全、图像组合、文/图生成3D。

例如,在图像编辑中,可以利用定制化方法,将图中出现猫编辑为特具有定身份的猫。其他内容请参考论文。

总结

这份综述深入探讨了文本到图像扩散模型的条件生成领域,揭示了融入文本引导生成过程中的新颖条件。

首先,作者为读者提供基础知识,介绍去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,作者揭示了将新颖条件引入T2I扩散模型的机制。

然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。

此外,作者探索可控生成的实际应用,在AI内容生成时代强调其在其中发挥重要作用和巨大潜力。

这项调查旨在全面了解当前可控T2I生成领域的现状,从而促进这一充满活力研究领域持续演变和拓展。

以上就是可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/798653.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 16:58:20
下一篇 2025年11月26日 17:02:19

相关推荐

  • 受欢迎的分析师说

    一位备受瞩目的加密货币分析师指出,若btc能够收复这一关键水平作为支撑位,则有可能推动比特币创下历史新高。 据这位广受关注的加密分析师称,若主要的加密资产能够夺回重要水平作为支撑位,那么比特币(BTC)有望刷新历史高位记录。 在最新发布的推文中,加密交易员MichaëlVande Poppe向其78…

    2025年12月8日
    000
  • 前4个隐藏的山寨币将在2025年爆炸10,000% – 数字4正在悄悄月亮

    发现为何doge、pepe、hype及fppe在2025年迎来10,000%的增长热潮? 加密货币市场热度攀升,一些前景广阔的山寨币崭露头角。其中,FPPE备受瞩目,预计在2025年实现高达10,000%的增长。 这款创新的模因币致力于革新数字领域,结合AI技术与网络文化的持久魅力。在众多竞争者中,…

    2025年12月8日
    000
  • 分析师透露,在2025年投资的4个顶级加密货币:不要错过!

    随着加密货币市场的蓬勃发展,越来越多的人开始关注那些能够带来显著收益的数字资产。在2025年,有四种加密货币特别引人注目:web3 ai(wai)、monero(xmr)、solana(sol)以及polkadot(dot)。 专家指出,在2025年的投资中,这四个顶级加密货币不容忽视! 加密市场正…

    2025年12月8日
    000
  • Qubic启动链上学习平台以支持生态系统增长

    qubic团队已发布了qubic academy v1,这是一款自主学习的教育平台,致力于协助新手用户、参与者以及开发者深入了解这一快速发展的去中心化协议的核心运作方式。 Qubic Academy V1现已可在https://qubic.org/academy上获取,其中包含简明课程、互动式教学单…

    2025年12月8日
    000
  • 2025年的牛市正在快速加热,如果您不早点定位,您可能会错过一代财富

    rexas finance通过让普通用户能够接触到现实世界的资产(rwa)代币化,为加密投资带来了前所未有的灵活性。 2025年的牛市正在迅速升温,如果您不提前布局,您可能会错失世代的财富。虽然比特币和以太坊依然是顶级资产,但它们的上升空间已经越来越有限。精明的投资者正在寻找那些被低估且具有突破潜力…

    2025年12月8日
    000
  • Qubic推出了Qubic Academy V1,一个自定进度的教育平台

    qubic团队已经发布了qubic academy v1,这是一款自定进度的教育平台,旨在帮助新手用户、贡献者及开发者理解这一迅速发展的去中心化协议背后的核心机制。 塞舌尔,马埃岛,2025年5月30日,链讯 作为一款以高效著称的第一层区块链,Qubic以其实用型工作证明(UPOW)和高速交易处理能…

    2025年12月8日
    000
  • 区块链的下一个进化不是炒作,而是在功能上

    随着网络规模的扩大,可扩展性问题已成为成败的关键因素。在提升可访问性的同时解决瓶颈的项目为可持续去中心化奠定了基础。 区块链的下一次进化并非空谈,而是注重功能性的提升。随着网络的增长,可扩展性问题变得尤为关键。 在提升可访问性的同时解决瓶颈的项目为可持续权力下放铺平了道路。 从具备码头的AI驱动开发…

    2025年12月8日
    000
  • Ruvi AI承诺将为12,700%的投资回报

    加密货币领域对ruvi ai的热议正引发广泛关注,这是一项全新的区块链项目,凭借其卓越的成长轨迹引发了市场的强烈反响。 声明:本文由赞助方提供,文中观点不代表Zycrypto立场。读者在决定是否参与本文提及的项目时应自行开展尽职调查。本文不构成投资建议。 当前加密货币市场正热议Ruvi AI,这是一…

    2025年12月8日
    000
  • 迈克尔·塞勒(Michael Saylor)鼓励投资者继续致力于比特币

    在拉斯维加斯举办的2025年比特币大会上,联合创始人兼战略执行主席迈克尔·塞勒(michael saylor)呼吁投资者坚定持有比特币[btc]。 在拉斯维加斯举办的2025年比特币大会上,联合创始人兼战略执行主席迈克尔·塞勒(michael saylor)呼吁投资者坚定持有比特币[btc]。 塞勒…

    2025年12月8日
    000
  • 渲染(渲染)设置为主要尖峰?分析师分享大胆的价格前景

    在过去的一周里,渲染(render)的价格出现了大约25%的下跌。自5月中旬以来,该代币一直表现不佳,价格跌破了5美元的关键点位。 在过去的8天内,Render的价格在25%左右波动。自五月中旬起,该代币开始面临挑战,即使在尝试守住5美元价位的努力失败后,价格继续下行。然而,尽管短期内价格走势显得脆…

    2025年12月8日
    000
  • XRP有望在第三季度2025年中断3美元,因为Solana(Sol)(Sol)和Rexas Finance(RXS)出现为顶级竞争者

    投资者正满怀期待,因为加密货币预计将在2025年引领行业潮流,加密货币市场正在为许多分析师所预测的巨大牛市做好准备。 投资者密切关注哪些加密货币将在2025年引领行业趋势,因为市场正在为分析师预测的大规模牛市做准备。除了少数山寨币的热度外,即使是经验最丰富的参与者也一致认为:比特币将继续引领方向并设…

    2025年12月8日
    000
  • Qubetics是针对关键互操作性挑战的出色解决方案

    随着创新项目的持续推进,加密货币领域持续沸腾。其中,qubetics已崭露头角,致力于解决长期以来制约区块链广泛应用的关键互操作性难题。这一突破推动了关于顶级加密货币的热议,尤其是那些希望在快速变化的市场中保持竞争优势的投资者。 在探寻当前值得入手的优质加密货币时,精明的市场参与者正聚焦于那些将尖端…

    2025年12月8日
    000
  • Ruvi AI引起了投资者的关注,因为雪崩降低了14%

    加密货币市场近期表现低迷,但并非所有参与者都陷入困境。雪崩网络,因其可扩展性和去中心化金融(defi)功能而广受赞誉,正经历一段艰难时期。 雪崩(加密货币符号:AVAX)的价格在最近的交易中下跌了14%。这种价格疲软伴随着智能资金流动模式的一些有趣变化。 尽管一级(L1)网络的价格下滑了14%,且投…

    2025年12月8日
    000
  • 这5种被低估的新兴加密货币正在获得动力

    由于今年主流加密货币频繁占据媒体焦点,一些较为小众的项目正悄然积累势头。 Kaspa(KAS)是一种基于GhostDag协议的一层加密货币,此协议允许多个区块同时存在。这种架构提升了可扩展性和交易处理能力,这是应对大规模交易的核心要素。 近期,Kaspa推出了0.16.0版本,着重于性能优化。新版减…

    2025年12月8日
    000
  • Web3 AI的$ 777K赠品和4美元的未来目标超出以太坊的升级和Pepe的模因动力

    模因令牌和智能合同领导者分享了关于加密货币未来发展的哪些见解? 在加密货币复杂多变的环境中,Meme令牌Soar Soar和智能合同Bymoths正朝着新的高峰迈进,快照显示了市场的趋势。 随着Pepe(Pepe)持续上涨至超过0.0000142美元,其市值已超过59.6亿美元,以太坊(ETH)显示…

    2025年12月8日
    000
  • Livepeer(LPT)价格飙升150%,与口袋网络,白色岩石和Numeraire一起排名为高级表演者

    livepeer成为本周少数几个逆势上涨的山寨币之一,因市场再次见证了大量抛售交易,推动比特币逼近105,000美元。 Livepeer(LPT)今日价格暴涨150%,位列涨幅榜前列,因市场经历了一轮抛售狂潮,促使比特币冲向105,000美元。 作为去中心化AI协议Livepeer的原生代币,LPT…

    2025年12月8日
    000
  • Ruvi AI(Ruvi)代币卖出了其创纪录的预售,筹集了140万美元

    在加密货币的竞争性世界中,新玩家不断出现,但是很少有人能吸引ruvi ai等聪明的投资者的注意。 在加密货币的动态范围内,新的竞争者不断出现,但很少有人能吸引像Ruvi AI这样的智能投资者的注意力。该项目以预售的价格仅为0.015美元的低入口价格开始旅程,并以其预售量粉碎了记录,售出了1.3亿个代…

    2025年12月8日
    000
  • 比特币最近的新历史高度高于100,000美元的新兴速度受到了大量机构投资的推动

    这种进展不仅体现在价格方面,还伴随着强大的机构推动力和有利的宏观经济环境。 比特币的价格似乎并未显现出减速的迹象,继续在历史高位不断攀升,业内专家预计到2025年第四季度,潜在的上涨目标或将达到16万美元。 比特币突破了11万美元关口,为刷新历史高点创造了条件。 比特币目前的交易价格约为109,45…

    2025年12月8日
    000
  • Ruvi AI是新的Shiba INU:到2025年的100倍增长潜力

    加密货币市场正处于快速扩张阶段,并非所有项目都能跟上步伐。曾被视为模因币领军者的柴犬币(shiba inu)似乎正逐渐褪去昔日光环。 加密货币市场发展迅猛,众多项目难以同步跟进。柴犬币(Shiba Inu),作为模因币中的明星,因投资者转而青睐具备实际应用场景及长远发展潜力的项目,目前似乎正逐步失去…

    2025年12月8日
    000
  • AIOZ网络宣布与NEO区块链进行战略合作

    通过此次合作,aioz成为depin解决方案供应商。 AIOZ网络已宣布与NEO区块链建立战略合作伙伴关系,将去中心化基础设施与NEO的EVM兼容Sidechain(Chain X)整合在一起。通过这一联盟,Aioz担当Depin解决方案供应商的角色。 这种结合让Aioz的去中心化服务(分割视频流、…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信