罕见!苹果开源图片编辑神器MGIE,要上iPhone?

拍张照片,输入文字指令,手机就开始自动修图?

这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

把背景中的人移除

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

在桌子上添加披萨

最近,AI在图片编辑方面取得了显著的进展。一方面,通过多模态大模型(MLLM),AI能够将图像作为输入,并提供视觉感知响应,从而实现更自然的图片编辑。另一方面,基于指令的编辑技术使得编辑过程不再依赖于详细描述或区域掩码,而是允许用户直接下达指令,以表达编辑的方式和目标。这种方法非常实用,因为它更符合人类的直觉方式。通过这些创新技术,AI在图片编辑领域正逐渐成为人们的得力助手。

基于上述技术的启发,苹果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解决指令引导不足的问题。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models论文链接:https://openreview.net/pdf?id=S1RKWSyZ2Y项目主页:https://mllm-ie.github.io/

MGIE(Mind-Guided Image Editing)由MLLM(Mind-Language Linking Model)和扩散模型组成,如图2所示。MLLM通过学习获得简明的表达指令,并提供明确的视觉相关引导。扩散模型利用预期目标的潜在想象力执行图像编辑,并通过端到端训练同步更新。这样,MGIE能够从固有的视觉推导中获益,并解决模糊的人类指令,从而实现合理的编辑。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

在人类指令的引导下,MGIE 可进行 Photoshop 风格的修改、全局照片优化和局部对象修改。以下图为例,在没有额外语境的情况下,很难捕捉到「健康」的含义,但 MGIE 可以将「蔬菜配料」与披萨精确地联系起来,并按照人类的期望进行相关编辑。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

这让我们想起,库克前不久在财报电话会议上表达的「雄心壮志」:「我认为苹果在生成式 AI 方面存在着巨大的机会,但我不想谈更多细节。」他透露的信息包括,苹果正在积极开发生成式 AI 软件功能,且这些功能在 2024 年晚些时候就能向客户提供。

结合苹果在近段时间发布的一系列生成式 AI 理论研究成果,看来我们期待一下苹果接下来要发布的新 AI 功能了。

论文细节

该研究提出的 MGIE 方法能够通过给定的指令 X 将输入图片 V 编辑为目标图片 罕见!苹果开源图片编辑神器MGIE,要上iPhone?。对于那些不精确的指令,MGIE 中的 MLLM 会进行学习推导,从而得到简洁的表达指令 ε。为了在语言和视觉模态之间架起桥梁,研究者还在 ε 之后添加了特殊的 token [IMG],并采用编辑头(edit head)罕见!苹果开源图片编辑神器MGIE,要上iPhone?对它们进行转换。转换后的信息将作为 MLLM 中的潜在视觉想象,引导扩散模型罕见!苹果开源图片编辑神器MGIE,要上iPhone?实现预期的编辑目标。然后,MGIE 能够理解具有视觉感知的模糊命令,从而进行合理的图像编辑(架构图如上图 2 所示)。

简洁的表达指令

通过特征对齐和指令调整,MLLM 能够跨模态感知提供与视觉相关的响应。对于图像编辑,该研究使用提示「what will this image be like if [instruction]」作为图像的语言输入,并导出编辑命令的详细解释。然而,这些解释往往过于冗长、甚至误导了用户意图。为了获得更简洁的描述,该研究应用预训练摘要器让 MLLM 学习生成摘要输出。这一过程可以总结为如下方式:

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

 通过潜在想象进行图片编辑

该研究采用编辑头 罕见!苹果开源图片编辑神器MGIE,要上iPhone?将 [IMG] 转化为实际的视觉引导。其中 罕见!苹果开源图片编辑神器MGIE,要上iPhone? 是一个序列到序列模型,它将来自 MLLM 的连续视觉 tokens 映射到语义上有意义的潜在 U = {u_1, u_2, …, u_L} 并作为编辑引导:

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

为了实现通过视觉想象 U 引导图像编辑这一过程,该研究考虑使用扩散模型罕见!苹果开源图片编辑神器MGIE,要上iPhone?,该模型在包含变分自动编码器(VAE)的同时,还能解决潜在空间中的去噪扩散问题。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

算法 1 展示了 MGIE 学习过程。MLLM 通过指令损失 L_ins 导出简洁指令 ε。借助 [IMG] 的潜在想象,罕见!苹果开源图片编辑神器MGIE,要上iPhone?转变其模态并引导 罕见!苹果开源图片编辑神器MGIE,要上iPhone?合成结果图像。编辑损失 L_edit 用于扩散训练。由于大多数权重可以被冻结(MLLM 内的自注意力块),因而可以实现参数高效的端到端训练。 

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

实验评估

对于输入图片,在相同的指令下,不同方法之间的比较,如第一行的指令是「把白天变成黑夜」:

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

表 1 显示了模型仅在数据集 IPr2Pr 上训练的零样本编辑结果。对于涉及 Photoshop 风格修改的 EVR 和 GIER,编辑结果更接近引导意图(例如,LGIE 在 EVR 上获得了更高的 82.0 CVS)。对于 MA5k 上的全局图片优化,由于相关训练三元组的稀缺,InsPix2Pix 很难处理。LGIE 和 MGIE 可以通过 LLM 的学习提供详细的解释,但 LGIE 仍然局限于其单一的模态。通过访问图像,MGIE 可以得出明确的指令,例如哪些区域应该变亮或哪些对象更加清晰,从而带来显著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距离),在 MagicBrush 上也发现了类似的结果。MGIE 还从精确的视觉想象中获得最佳性能,并修改指定目标作为目标(例如,更高的 82.2 DINO 视觉相似度和更高的 30.4 CTS 全局字幕对齐)。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

为了研究针对特定目的的基于指令的图像编辑,表 2 对每个数据集上的模型进行了微调。对于 EVR 和 GIER,所有模型在适应 Photoshop 风格的编辑任务后都获得了改进。MGIE 在编辑的各个方面始终优于 LGIE。这也说明了使用表达指令进行学习可以有效地增强图像编辑,而视觉感知在获得最大增强的明确引导方面起着至关重要的作用。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

α_X 和 α_V 之间的权衡。图像编辑有两个目标:操作作为指令的目标和保留作为输入图像的剩余部分。图 3 显示了指令 (α_X) 和输入一致性 (α_V) 之间的权衡曲线。该研究将 α_X 固定为 7.5,α_V 在 [1.0, 2.2] 范围内变化。α_V 越大,编辑结果与输入越相似,但与指令的一致性越差。X 轴计算的是 CLIP 方向相似度,即编辑结果与指令的一致程度;Y 轴是 CLIP 视觉编码器与输入图像的特征相似度。通过具体的表达指令,实验在所有设置中都超越了 InsPix2Pix。此外, MGIE 还能通过明确的视觉相关引导进行学习,从而实现全面提升。无论是要求更高的输入相关性还是编辑相关性,这都支持稳健的改进。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

消融研究

AI图像编辑器 AI图像编辑器

使用文本提示编辑、变换和增强照片

AI图像编辑器 46 查看详情 AI图像编辑器

除此以外,研究者还进行了消融实验,考虑了不同的架构 FZ、FT 以及 E2E 在表达指令上的性能 。结果表明,在 FZ、FT、E2E 中,MGIE 持续超过 LGIE。这表明具有关键视觉感知的表达指令在所有消融设置中始终具有优势。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

为什么 MLLM 引导有用?图 5 显示了输入或 ground-truth 目标图像与表达式指令之间的 CLIP-Score 值。输入图像的 CLIP-S 分数越高,说明指令与编辑源相关,而更好地与目标图像保持一致可提供明确、相关的编辑引导。如图所示,MGIE 与输入 / 目标更加一致,这就解释了为什么其表达性指令很有帮助。有了对预期结果的清晰叙述,MGIE 可以在图像编辑方面取得最大的改进。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

人工评估。除了自动指标外,研究者还进行了人工评估。图 6 显示了生成的表达指令的质量,图 7 对比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相关性和整体质量方面的图像编辑结果。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

推理效率。尽管 MGIE 依靠 MLLM 来推动图像编辑,但它只推出了简明的表达式指令(少于 32 个 token),因此效率与 InsPix2Pix 不相上下。表 4 列出了在英伟达 A100 GPU 上的推理时间成本。对于单个输入,MGIE 可以在 10 秒内完成编辑任务。在数据并行化程度更高的情况下,所需的时间也差不多(当批大小为 8 时,需要 37 秒)。整个过程只需一个 GPU(40GB)即可完成。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

定性比较。图 8 展示了所有使用数据集的可视化对比,图 9 进一步对比了 LGIE 或 MGIE 的表达指令。

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

在项目主页中,研究者还提供了更多 demo(https://mllm-ie.github.io/)。更多研究细节,可参考原论文。

以上就是罕见!苹果开源图片编辑神器MGIE,要上iPhone?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/427743.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 12:23:39
下一篇 2025年11月7日 12:24:32

相关推荐

  • python怎么修改全局变量_python全局变量修改方法

    答案:修改Python全局变量需区分可变与不可变类型,不可变类型在函数内修改必须用global关键字声明,而可变类型如列表、字典只需直接修改内容无需global;若对可变类型重新赋值则仍需global。为避免副作用和维护困难,推荐使用模块级变量、类封装或函数参数返回值等方式管理状态,提升代码可读性和…

    2025年12月14日
    000
  • 使用 Python 脚本执行带参数的 psql.exe 命令

    本文介绍了如何使用 Python 的 subprocess 模块来执行 psql.exe 命令,并向其传递连接字符串和 SQL 文件路径等参数。通过示例代码和注意事项,帮助读者解决在使用 Python 脚本调用 psql.exe 时可能遇到的问题,确保数据库备份恢复等操作能够顺利进行。 在 Pyth…

    2025年12月14日
    000
  • Python脚本中执行psql.exe并处理I/O重定向

    本教程探讨如何在Python脚本中正确执行带有参数和I/O重定向(如 问题背景与挑战 在python脚本中执行外部命令行工具时,尤其当命令包含i/o重定向(如从文件读取输入 psql.exe postgresql://user:pass@host:port/ < backup.sql 用户可能…

    2025年12月14日
    000
  • Python怎么编写一个装饰器_Python装饰器原理与实战开发

    Python装饰器核心是函数作为一等公民和闭包机制,通过@语法在不修改原函数代码的情况下为其添加新功能,如日志、权限控制、缓存等,提升代码复用性和可维护性。 Python装饰器,说白了,就是一种特殊函数,它能接收一个函数作为输入,然后给这个函数增加一些额外功能,最终返回一个全新的函数。它就像给你的老…

    2025年12月14日
    000
  • Python中NumPy计算加速:如何利用多进程避免数据拷贝瓶颈

    本文深入探讨了Python中利用多进程加速NumPy密集型计算时遇到的性能瓶颈。常见的process_map方法在处理大型NumPy数组时,由于频繁的数据拷贝导致效率低下甚至慢于单线程。教程将揭示这一问题根源,并提供一个高效的解决方案:利用multiprocessing.Manager实现数据共享,…

    2025年12月14日
    000
  • 使用 Pandas 高效关联多文件数据并提取特定信息

    本教程详细介绍了如何利用 Python 的 Pandas 库,高效地处理来自多个文本文件的关联数据。通过将文件内容加载到 DataFrame 中,并运用 merge 操作进行数据整合,实现 IP 地址、MAC 地址和端口信息的精确匹配与提取,最终生成结构化的输出结果,避免了传统文件处理的复杂性。 场…

    2025年12月14日
    000
  • Pytesseract在特定IDE中无法找到Tesseract的解决方案

    本文旨在解决Pytesseract在部分IDE(如PyCharm)中出现TesseractNotFoundError,而在其他IDE(如VS Code)中正常工作的问题。即使Tesseract OCR引擎已正确安装并存在于系统PATH中,此问题仍可能发生。核心解决方案是通过显式设置pytessera…

    2025年12月14日
    000
  • Python变量类型判断:isinstance() 的正确用法

    本文旨在解决Python中,尤其是在Django等框架下,判断变量所属模型或类型时常遇到的困惑。通过对比 type() is 运算符与 isinstance() 函数,我们将深入解析为何前者常导致判断失误,并明确指出 isinstance() 才是进行类型检查的规范且推荐方式,它能更准确地处理继承关…

    2025年12月14日
    000
  • 加速Python中NumPy密集型计算的多进程优化策略

    本文探讨了在Python中对NumPy密集型计算进行多进程加速时遇到的常见性能瓶颈。通过分析数据序列化和复制的开销,我们揭示了为何传统的process_map可能适得其反。文章提供了一种基于multiprocessing.Manager共享内存的优化方案,有效避免了重复数据复制,从而显著提升了计算效…

    2025年12月14日
    000
  • Windows 环境下 gdown 命令未识别:安装与 PATH 配置疑难解答

    本教程旨在解决在 Windows 系统中,即使已安装 gdown 并配置了 Python Scripts 目录到 PATH 环境变量,仍出现 gdown 命令未识别的问题。文章将深入分析问题成因,并提供一个直接有效的解决方案,帮助用户顺利执行 gdown 命令以下载 Google Drive 文件。…

    2025年12月14日
    000
  • 如何利用Python多进程实现长时间计算与实时结果展示

    本文探讨了在Python中如何解决一个耗时较长的计算任务(如5小时)与一个需要实时(如每5秒)输出结果的任务之间的冲突。通过引入multiprocessing模块和Manager进行进程间通信,我们展示了如何让实时任务在等待新计算结果的同时,持续使用已知的“旧”结果,并在新结果可用时立即切换,从而确…

    2025年12月14日
    000
  • 解决Windows上“gdown”命令未识别错误:即使已安装并配置PATH

    本文针对Windows用户在使用gdown时遇到的“命令未识别”错误,即使已确认安装并配置了环境变量,提供了一个直接有效的解决方案。核心方法是定位到gdown可执行文件的实际路径,并使用相对路径或完整路径显式调用它,从而绕过系统PATH解析的潜在问题。 问题描述与常见误区 许多windows用户在尝…

    2025年12月14日
    000
  • Python变量类型判断:isinstance 的正确姿势

    在Python中,判断变量是否属于特定模型或类型时,常见的误区是使用type(variable) is ModelA。本文将深入解析为何这种方法在多数情况下会失败,并强调推荐使用isinstance(variable, ModelA)进行类型检查。通过实例代码,我们将展示isinstance的正确用…

    2025年12月14日
    000
  • 高效分组字典冗余条目:基于图论的相似性聚合教程

    本教程详细阐述了如何通过图论中的最大团算法,有效地将字典中具有相同成对相似性分数的冗余条目进行分组。面对大量数据项间的相似性计算结果,传统方法难以处理其冗余性并进行聚合。本文通过构建以相似性分数为边权值的图,并利用NetworkX库识别最大团,提供了一种优雅且高效的解决方案,将具有共同相似性的条目聚…

    2025年12月14日
    000
  • Aiogram 3 中从 URL 发送音频文件的教程

    本教程旨在解决 Aiogram 3 机器人开发中,从外部 URL 直接发送音频文件时遇到的 InputFile 抽象类错误。文章将详细阐述问题的根源,并提供两种高效且无需本地存储的解决方案:一是利用 InputMediaAudio 类,二是直接将 URL 字符串传递给 bot.send_audio …

    2025年12月14日
    000
  • 深度学习文本处理:XLNet编码TypeError及Tokenizer配置指南

    本文旨在解决在Kaggle等环境中进行XLNet文本编码时常见的TypeError: cannot unpack non-iterable NoneType object错误。该错误通常源于XLNet Tokenizer的缺失或未正确使用,导致编码函数返回None而非预期的张量。教程将详细阐述错误原…

    2025年12月14日
    000
  • Windows环境下gdown命令识别异常的排查与解决

    在Windows终端中,即使已安装gdown并配置了环境变量PATH,用户仍可能遇到“gdown命令未识别”的错误。本文将提供一种直接有效的解决方案,指导用户通过定位gdown可执行文件所在目录并使用相对路径执行,从而规避系统PATH识别问题,确保gdown工具的正常运行。 问题现象分析 当用户在p…

    2025年12月14日
    000
  • 深入StackExchange API:解锁问题正文内容的秘诀

    在使用StackExchange API时,开发者常遇到默认响应仅包含问题标题而缺少详细正文的问题。本文将深入探讨如何通过巧妙运用API的filter=’withbody’参数,轻松获取问题的完整HTML格式正文内容,从而实现更全面的数据抓取和应用。 StackExchang…

    2025年12月14日 好文分享
    000
  • 如何高效分组字典中具有相同相似度的冗余条目

    本文旨在解决字典条目间相似度计算中存在的冗余分组问题。通过将问题建模为图论中的“最大团问题”,并利用 networkx 库,我们可以根据不同的相似度分数构建多个图,然后在每个图中找到完全连接的节点集合(即团),从而优雅地将具有相同相似度的条目进行高效分组,避免了复杂的嵌套循环,并生成清晰的、按组聚合…

    2025年12月14日
    000
  • 基于相似度对字典条目进行分组:NetworkX与最大团算法实践

    本教程探讨如何高效地对字典中具有相同相似度得分的冗余条目进行分组。面对复杂的两两比较结果,传统方法易陷入嵌套循环。文章提出利用图论中的“最大团”问题,通过为每个独特的相似度值构建一个图,并使用Python的networkx库查找图中的最大团,从而实现优雅且可扩展的分组,避免了手动处理的复杂性。 引言…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信