生成多语种文本与图片的全能工具AltDiffusion-m18

当前,非英文文图生成模型选择有限,用户往往要将 prompt 翻译成英语再输入模型。这样不仅会造成额外的操作负担,并且翻译过程中的语言文化误差,会影响生成图片的准确性。

智源研究院 FlagAI 团队首创高效训练方式,使用多语言预训练模型和 Stable Diffusion 结合,训练多语言文图生成模型 —— AltDiffusion-m18,支持18种语言的文图生成。

包括中文、英文、日语、泰语、韩语、印地语、乌克兰语、阿拉伯语、土耳其语、越南语、波兰语、荷兰语、葡萄牙语、意大利语、西班牙语、德语、法语、俄语。

Huggingface:https://huggingface.co/BAAI/AltDiffusion-m18

GitHub:https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion-m18

改图鸭AI图片生成 改图鸭AI图片生成

改图鸭AI图片生成

改图鸭AI图片生成 30 查看详情 改图鸭AI图片生成

AltDiffusion-m18  在英文的 FID、IS、CLIP score 客观评测上达到了 Stable Diffusion 95~99% 效果,在中文、日文上达到了最优水平,同时填补了其余 15 种语言文图生成模型的空白,极大满足了产业界对于多语言文图生成的强烈需求。在此,特别鸣谢 Stable Diffusion Research Team 为这项工作提供建议。

此外,AltDiffusion-m18 相关创新技术报告《AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities》已被 Findings of ACL 2023 接收。

技术亮点

1 全新 AltCLIP,高效、低成本构建多语言 T2I 模型

在去年发布的 AltDiffusion-m9  中,智源团队基于 Stable Diffusion  v1.4,创新性地更换语言塔为多语言塔 AltCLIP,并使用九种语言的多语言数据进行微调,将原始仅支持英文的  Stable Diffusion 扩展到支持 9 种不同的语言。

AltCLIP:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18

而 AltDiffusion-m18 基于 Stable Diffusion v2.1 训练。Stable Diffusion  v2.1 新的语言塔为 OpenCLIP 的倒二层,因此,全新的 AltCLIP 以 OpenCLIP 的倒二层作为蒸馏目标重新训练,并且在 m9 的基础上将仅对 Unet 中 CrossAttention 层 K,V 矩阵微调,扩展成两阶段的训练方式,如下图所示:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

开源AltDiffusion-m18 ,18种语言文图生成all in one

– 第一阶段:早前在 m9 的实验过程中发现,微调 K,V 矩阵主要学习的是文图的概念对齐,所以 m18 训练的第一阶段继续使用 18 语言的数据进行K,V矩阵的微调。此外,通过实验证明,将图片从 512*512 的分辨率降低到 256*256 并不会损失图片的语义信息。因此,在第一阶段学习文图概念对齐的过程中使用 256*256 的分辨率进行训练,加快了训练速度。

– 第二阶段:为了进一步提高生成图像的质量,使用 512*512 的分辨率在 18 语言的数据中进行 Unet 全量参数的训练。此外,丢掉 10% 的文本来进行 uncondition 的训练,来服务 classifier-free guidance 的推理。

– 此外,采用了一种无分类器引导训练技术,进一步提高生成质量。

最新评测结果显示,AltCLIP-m18 在中英文 zero-shot(零样本)检索任务上超过 CLIP 达到了最优水平⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

在多语言图片分类 benchmarks 上,AltCLIP-m9(早期版本,支持9种语言) 与 AltCLIP-m18 达到最优水平⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

同样,得益于 AltCLIP 创新性的换塔思路,AltDiffusion-m18 也可以无缝接入 Stable Diffusion 所有建立在原 CLIP 上的模型和生态工具,所有支持 Stable Diffusion 的工具如 Stable Diffusion WebUI,DreamBooth 等都可应用 AltDiffusion-m18 上。无痛上手,可玩性极佳!

2 多语言生成效果对齐,性能优越、细节准确

在全新 AltCLIP 的加持下,AltDiffusion-m18 在英文的 FID、IS、CLIP score 评测中达到了原始 Stable Diffusion  95~99% 的效果,并在中文、日文等 17 种语言中实现了最先进的性能,详细数据如下表所示:

开源AltDiffusion-m18 ,18种语言文图生成all in one

在英文、中文、日文上,AltDiffusion-m18 与其他模型生成结果相比,效果更优越、细节更准确:

开源AltDiffusion-m18 ,18种语言文图生成all in one

上图(a)中 AltDiffusion-m18 可以生成跟原始  Stable Diffusion  高度一致的结果,并且在 prompt 理解上优于国内其他中英双语模型,例如:”A stuffed bear”, “A black and white photo”, “cat”等在国内其他中英双语模型中生成失败的概念可以在 AltDiffusion 中成功生成。同样的现象在中文和日文中也有出现。

上图(b)中的”黑色沙发,木地地板”仅有 AltDiffusion-m18 正确生成。

上图(c)中的”bears”,Japanese  Stable Diffusion  错误生成为“人类”,AltDiffusion-m18 可以正确生成为“熊”。

此外,智源 FlagEval 团队开发了文图生成模型评测工具 ImageEval。经评测,AltDiffusion-m18 在实体对象、实体数量维度上的准确度分别超过国内同行模型 11%、 10%(注:ImageEval 评测方法和结果将于近期公开发布,敬请期待)。

3 小语种文生图救星,提供多语言文图生成模型参照系

AltDiffusion-m18 从多语言的数据中学到了不同语言的偏置,帮助用户越过语言翻译门槛、绕过文化转译,减少了语言背后文化信息的丢失。如下图所示,中文、日文 Prompt 生成的小男孩的脸部轮廓更加“亚洲风”,而英语及其他欧洲地区语言 prompt 生成小男孩则更加“欧美风”。

开源AltDiffusion-m18 ,18种语言文图生成all in one

更加有趣的是,在不同语言下动物的 prompt 生成的图片细节也有差异。如下图所示,虽然不同语言生成的图片整体上具有高度一致性,但画面背景和柯基的五官细节都有细微差异。

开源AltDiffusion-m18 ,18种语言文图生成all in one

总的来说,AltDiffusion-m18 为多语言文图生成模型提供了一个基础参照系。以西班牙语、德语、法语等15 种语言为母语的用户,不必再将脑海中的 prompt 翻译成英文,就可以感受到 AIGC 的乐趣。AI 调教高手们还可以在 AltDiffusion-m18 基础上结合 DreamBooth 、ControlNet 和 LoRA 等进一步优化,或者使用其他语言的语料微调得到更好的文图生成效果。

同时,大模型算法、模型及工具一站式开源项目—— FlagAI (github.com/FlagAI-Open/FlagAI)也提供了训练推理的工具和 API ,方便大家快速下载和使用 AltDiffusion-m18 。

以上就是生成多语种文本与图片的全能工具AltDiffusion-m18的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/550909.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 20:03:27
下一篇 2025年11月9日 20:04:47

相关推荐

  • css 什么语言

    CSS是一种用来表现HTML或XML等文件样式的计算机语言,是能够真正做到网页表现与内容分离的一种样式设计语言。CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。 本教程操作环境:windows7系统、CSS3版、Dell G3电脑。 CSS是什么语言? CSS是一种…

    2025年12月24日
    000
  • 如何保持文本格式不变

    要保持文本格式不变,需根据需求选择合适格式:若需保留视觉与布局,使用PDF或.docx;若为纯文本或代码,应选用UTF-8编码的纯文本文件,并用专业编辑器处理,避免隐藏格式与乱码。 要保持文本格式不变,核心在于理解“不变”的语境是什么,以及你所处理的文本是“富文本”还是“纯文本”。通常,这意味着你需…

    2025年12月22日
    000
  • 揭秘HTTP状态码的语言奥秘

    HTTP状态码是网页开发中经常遇到的概念。它们以三位数字的形式出现,用于指示特定HTTP请求的处理结果。这些状态码不仅包含了基本的信息,还蕴含着一种语言的奥秘。本文将深入揭秘HTTP状态码的语言奥秘。 首先,我们要理解HTTP状态码是如何工作的。当客户端发送一个HTTP请求给服务器时,服务器会根据请…

    2025年12月22日
    000
  • 揭示的语言之谜:HTTP状态码

    HTTP是现代计算机网络中最常用的协议之一,而其中的状态码则是HTTP通信过程中非常重要的一部分。通过状态码,服务器可以向客户端传递各种信息,包括请求成功与否、请求重定向、请求错误等。尽管状态码只是简单的3位数字,但它们背后隐藏着许多语言之谜。 首先,我们来探索一下HTTP状态码的基本分类。按照类别…

    2025年12月22日
    000
  • 揭秘HTTP状态码的含义

    HTTP状态码是用于表示HTTP请求的结果的三位数字代码。这些状态码由HTTP协议规定,并且在与服务器进行通信时,它们扮演着非常重要的角色。尽管每个状态码都有其特定的含义,但是很少有人知道这些代码背后隐藏的深意和故事。本文将探秘HTTP状态码背后的语言之谜。 首先,我们来了解一下最常见的HTTP状态…

    2025年12月22日
    000
  • 掌握Canvas的跨语言兼容性

    随着互联网的快速发展,Web技术也在不断更新与演进。其中,HTML5标准的制定对于Web开发者来说,无疑是一个重大的进步。而HTML5的一个重要特性就是Canvas元素,它提供了一种使用JavaScript脚本进行绘制图形的方法。作为一个具有强大绘图功能的元素,Canvas在Web开发中越来越受到开…

    2025年12月21日
    000
  • html是一种页面什么型语言?

    html是一种页面“描述”型语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。 (推荐教程:html教程) html是一种页面“描述”型语言。 HTML(Hyper Text Mark-up Language)即超文本标记语言或超文本链接标…

    2025年12月21日
    000
  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • HTML的语言编码有哪些

    在html里,编码可导致浏览者通过ie时候网页乱码,也可以导致div+css的兼容性hack,编码非常的重要,一般编码的位置放在html网页中的head>和中间。今天我们就介绍一下关于编码的知识。 一般这段网页编码放在html网页中的 和中间。 html编码样式 通过改变charset=utf…

    好文分享 2025年12月21日
    000
  • html规定元素内容的语言属性lang

    实例 段落中的一些法文: Ceci est un paragraphe. 浏览器支持 所有浏览器均支持 lang 属性。 定义和用法 lang 属性规定元素内容的语言。 提示和注释 注释:lang 属性在以下标签中无效:, , , set>, , 以上就是html规定元素内容的语言属性lang…

    好文分享 2025年12月21日
    000
  • 开源 C++ 框架如何利用社区贡献提升可扩展性和维护性?

    开源 c++++ 框架利用社区贡献增强可扩展性和可维护性:可扩展性:添加新功能模块化设计可插件架构可维护性:改进文档修复错误代码审查实战案例: boost 库通过社区贡献,扩展了新库,持续维护现有库,提供了广泛的文档,提升了可扩展性和可维护性。 开源 C++ 框架を活用:利用社区贡献增强可扩展性和可…

    2025年12月18日
    000
  • 深度了解开源和商业C++框架之间的差异,以做出最佳选择

    在选择 c++++ 框架时,开源和商业选项的区别在于:许可证:开源框架免费且可修改,而商业框架通常受限。支持:开源框架依靠社区支持,而商业框架提供付费专业帮助。特性:开源框架特性广泛,但稳定性各异,而商业框架通常经过维护,功能可靠。成本:开源框架免费,而商业框架需要许可费用,价格可能很高。根据项目需…

    2025年12月18日
    200
  • C++开源框架与商用框架有何异同?

    商用框架需要购买许可证且拥有专业支持,而开源框架免费且可自定义,具备广泛的社区支持。差异还包括:许可证限制:开源框架更宽松,而商用框架更严格。安全性:商用框架通常经过更严格的测试和审核。认证:某些商用框架已通过行业认证。 C++ 开源与商用框架对比 引言 在现代 C++ 开发中,框架已成为必不可少的…

    2025年12月18日
    000
  • 开源 C++ 框架与商业 C++ 框架的最佳实践有何不同?

    开源和商业 c++++ 框架的最佳实践取决于以下关键差异:许可:开源框架使用免费和开源许可证,允许修改和分发,而商业框架受专有许可证限制。支持:开源框架依赖社区支持,而商业框架提供官方支持和服务。定制:开源框架更具可定制性,而商业框架提供预先构建的组件。价格:开源框架免费,而商业框架需要付费许可证。…

    2025年12月18日
    000
  • 开源C++框架与C++库的区别

    框架提供结构和预建组件,加快开发但限制灵活性。库提供特定功能的实现,扩展功能而不影响结构。例如,qt 框架简化了 gui 开发,而 opencv 库提供了计算机视觉功能。 开源 C++ 框架与库的区别 在软件开发中,框架和库是两种不同的概念。两种工具都可以在加快开发时间和提高代码质量方面发挥重要作用…

    2025年12月18日
    000
  • C++框架的开源与商业模式演变趋势如何?

    c++++ 框架开源与商业模式趋势:开源框架兴起,提供免费且强大的工具。商业框架适应竞争,提供附加功能和支持。混合模型流行,结合开源框架和商业附加组件。qt 作为案例,同时提供开源和商业许可选项。应对策略:评估选项、考虑混合模型、与社区互动。 C++ 框架开源与商业模式演变趋势 引言 开源 C++ …

    2025年12月18日
    000
  • 开源C++框架 vs 商业C++框架:专业人士解读

    开源 C++ 框架与商业 C++ 框架:专业人士的视角 在 C++ 应用开发的世界中,开源和商业框架之间存在着激烈的竞争。每个阵营都有其优缺点,并且根据具体项目要求进行明智的选择至关重要。 开源 C++ 框架 优点: 免费且社区支持丰富高度可定制和灵活可见性高,文档齐全 缺点: 可能缺乏专业支持社区…

    2025年12月18日
    000
  • 如何对比不同C++框架的开源性和商业许可模型?

    了解 c++++ 框架的开源性和商业许可模型至关重要:研究开源许可证:框架通常使用 apache 2.0、mit 等开放源代码许可证。了解许可协议以确保符合项目要求。考虑商业许可证:商业许可证授予额外权利和支持,需要支付费用,但可能包括技术支持和定制开发。对比不同框架:通过比较表格了解特定 c++ …

    2025年12月18日
    300
  • 开源和商业C++框架对比:究竟有何优劣?

    开源和商业 c++++ 框架各有优劣:开源框架:免费,社区支持,可定制,支持新技术,但技术支持有限,质量控制受限,许可限制。商业框架:提供全面支持,稳定可靠,组件预配置,企业级支持,但价格昂贵,源代码封闭,供应商锁定。选择建议:开源框架适合需要定制、技术支持要求不高、预算有限的项目;商业框架适合稳定…

    2025年12月18日
    000
  • 开源C++框架与商业C++框架:成本效益分析

    对于 c++++ 框架,开源框架免除前期费用和提供无限次使用,而商业框架则需支付许可或订阅费。开源框架功能有限但可定制,商业框架功能丰富但灵活性较差。初创公司和需要定制的企业倾向于开源框架,而企业机构和需要广泛功能的企业倾向于商业框架。 开源与商业 C++ 框架的成本效益分析 在选择 C++ 框架时…

    2025年12月18日
    000

发表回复

登录后才能评论
关注微信