基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

程序猿 • 2025年11月11日 05:56:52 • 科技 • 阅读 1

这个模型和 Sora 一样采用了 DiT 框架。

众所周知，开发顶级的文生图（T2I）模型需要大量资源，因此资源有限的个人研究者基本都不可能承担得起，这也成为了 AIGC（人工智能内容生成）社区创新的一大阻碍。同时随着时间的推移，AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。

于是关键的问题来了：我们能以怎样的方式将这些新元素高效地整合进现有模型，依托有限的资源让模型变得更强大？

为了探索这个问题，华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法：由弱到强式训练（weak-to-strong training）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文标题：PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

论文地址：https://arxiv.org/pdf/2403.04692.pdf

项目页面：https://pixart-alpha.github.io/PixArt-sigma-project/

他们的研究基于他们去年十月提出的一种高效的文生图训练方法 PixArt-α，参阅本站报道《超低训练成本文生图模型 PixArt 来了，效果媲美 MJ，只需 SD 10% 训练时间》。PixArt-α 是 DiT（扩散 Transformer）框架的一种早期尝试。而现在，随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用，DiT 架构的有效性得到了研究社区越来越多工作的验证，例如 PixArt, Dit-3D, GenTron 等「1」。

该团队使用 PixArt-α 的预训练基础模型，通过整合高级元素以促进其持续提升，最终得到了一个更加强大的模型 PixArt-Σ。图 1 展示了一些生成结果示例。

PixArt-Σ 如何炼成？

具体来说，为了实现由弱到强式训练，造出 PixArt-Σ，该团队采用了以下改进措施。

更高质量的训练数据

该团队收集了一个高质量数据集 Internal-Σ，其主要关注两个方面：

(1) 高质量图像：该数据集包含 3300 万张来自互联网的高分辨率图像，全都超过 1K 分辨率，包括 230 万张分辨率大约为 4K 的图像。这些图像的主要特点是美观度高并且涵盖广泛的艺术风格。

(2) 密集且准确的描述：为了给上述图像提供更精准和详细的描述，该团队将 PixArt-α 中使用的 LLaVA 替换成了一种更强大的图像描述器 Share-Captioner。

不仅如此，为了提升模型对齐文本概念和视觉概念的能力，该团队将文本编码器（即 Flan-T5）的 token 长度扩展到了大约 300 词。他们观察到，这些改进可以有效消除模型产生幻觉的倾向，实现更高质量的文本 – 图像对齐。

下表 1 展示了不同数据集的统计数据。

高效的 token 压缩

为了增强 PixArt-α，该团队将其生成分辨率从 1K 提升到了 4K。为了生成超高分辨率（如 2K/4K）的图像，token 数量会大幅增长，这就会导致计算需求大幅增长。

为了解决这一难题，他们引入了一种专门针对 DiT 框架调整过的自注意力模块，其中使用了键和值 token 压缩。具体来说，他们使用了步长为 2 的分组卷积来执行键和值的局部聚合，如下图 7 所示。

此外，该团队还采用了一种专门设计的权重初始化方案，可在不使用 KV（键 – 值）压缩的前提下从预训练模型实现平滑适应。这一设计可有效将高分辨率图像生成的训练和推理时间降低大约 34%。

由弱到强式训练策略

该团队提出了多种微调技术，可快速高效地将弱模型调整为强模型。其中包括：

(1) 替换使用了一种更强大的变分自动编码器（VAE）：将 PixArt-α 的 VAE 替换成了 SDXL 的 VAE。

(2) 从低分辨率到高分辨率扩展，这个过程为了应对性能下降的问题，他们使用了位置嵌入（PE）插值方法。

(3) 从不使用 KV 压缩的模型演进为使用 KV 压缩的模型。

实验结果验证了由弱到强式训练方法的可行性和有效性。

通过上述改进，PixArt-Σ 能以尽可能低的训练成本和尽可能少的模型参数生成高质量的 4K 分辨率图像。

具体来说，通过从一个已经预训练的模型开始微调，该团队仅额外使用 PixArt-α 所需的 9% 的 GPU 时间，就得到了能生成 1K 高分辨率图像的模型。如此表现非常出色，因为其中还替换使用了新的训练数据和更强大的 VAE。

此外，PixArt-Σ 的参数量也只有 0.6B，相较之下，SDXL 和 SD Cascade 的参数量分别为 2.6B 和 5.1B。

PixArt-Σ 生成的图像的美观程度足以比肩当前最顶级的文生图产品，比如 DALL・E 3 和 MJV6。此外，PixArt-Σ 还展现出了与文本 prompt 细粒度对齐的卓越能力。

图 2 展示了一张 PixArt-Σ 生成 4K 高分辨率图像的结果，可以看到生成结果很好地遵从了复杂且信息密集的文本指令。

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

32 查看详情

实验

实现细节

训练细节：对于执行条件特征提取的文本编码器，该团队按照 Imagen 和 PixArt-α 的做法使用了 T5 的编码器（即 Flan-T5-XXL）。基础扩散模型就是 PixArt-α。不同于大多数研究提取固定的 77 个文本 token 的做法，这里将文本 token 的长度从 PixArt-α 的 120 提升到了 300，因为 Internal-Σ 中整理的描述信息更加密集，可以提供高细粒度的细节。另外 VAE 使用了来自 SDXL 的已预训练的冻结版 VAE。其它实现细节与 PixArt-α 一样。

模型是基于 PixArt-α 的 256px 预训练检查点开始微调的，并使用了位置嵌入插值技术。

最终的模型（包括 1K 分辨率）是在 32 块 V100 GPU 上训练的。他们还额外使用了 16 块 A100 GPU 来训练 2K 和 4K 图像生成模型。

评估指标：为了更好地展示美观度和语义能力，该团队收集了 3 万对高质量文本 – 图像，以对最强大的文生图模型进行基准评估。这里主要是通过人类和 AI 偏好来评估 PixArt-Σ，因为 FID 指标可能无法适当地反映生成质量。

性能比较

图像质量评估：该团队定性地比较了 PixArt-Σ 与闭源文生图（T2I）产品和开源模型的生成质量。如图 3 所示，相比于开源模型 SDXL 和该团队之前的 PixArt-α，PixArt-Σ 生成的人像的真实感更高，并且也有更好的语义分析能力。与 SDXL 相比，PixArt-Σ 能更好地遵从用户指令。

PixArt-Σ 不仅优于开源模型，而且与当前的闭源产品相比也颇具竞争力，如图 4 所示。

生成高分辨率图像：新方法可以直接生成 4K 分辨率的图像，而无需任何后处理。此外，PixArt-Σ 也能准确遵从用户提供的复杂和详细的长文本。因此，用户无需费心去设计 prompt 也能得到让人满意的结果。

人类 / AI（GPT-4V）偏好研究：该团队也研究了人类和 AI 对生成结果的偏好。他们收集了 6 个开源模型的生成结果，包括 PixArt-α、PixArt-Σ、SD1.5、Stable Turbo、Stable XL、Stable Cascade 和 Playground-V2.0。他们开发了一个网站，可通过展现 prompt 和对应的图像来收集人类偏好反馈。

人类评估者可根据生成质量以及与 prompt 的匹配程度来给图像排名。结果见图 9 的蓝色条形图。

可以看出人类评估者对 PixArt-Σ 的喜爱胜过其它 6 个生成器。相比于之前的文生图扩散模型，如 SDXL（2.6B 参数）和 SD Cascade（5.1B 参数），PixArt-Σ 能以少得多的参数（0.6B）生成质量更高且更符合用户 prompt 的图像。

此外，该团队还使用了先进的多模态模型 GPT-4 Vision 来执行 AI 偏好研究。他们的做法是给 GPT-4 Vision 提供两张图像，让它基于图像质量和图像 – 文本对齐程度进行投票。结果见图 9 中的橙色和绿色条形图，可以看到情况与人类评估基本一致。

该团队也进行了消融研究来验证各种改进措施的有效性。更多详情，请访问原论文。

参考文章：1.https://www.shoufachen.com/Awesome-Diffusion-Transformers/

以上就是基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/619595.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

DeepSeek能不能整理会议纪要 DeepSeek自动摘要功能的使用方法介绍

上一篇 2025年11月11日 05:48:56

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

下一篇 2025年11月11日 05:57:27

好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 好文分享
0000
好文分享

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
好文分享

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
好文分享

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000
好文分享

VS Code主题开发：告别JSON，拥抱脚本化生成

vs code主题扩展最终需json格式定义，但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题，并能实现颜色动态计算，显著提升主题开发的灵活性与效率。为什么选择脚本化生成VS Code主题？在开发V…

程序猿
2025年12月20日
0000
好文分享

如何用Quasar框架开发一个跨平台应用？

Quasar基于Vue.js用一套代码构建多平台应用，支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目，利用模式（SPA、PWA、Electron等）切换目标平台，使用Quasar组件库编写通用UI，配合Pinia管理状态，最后通过不同构建命令发布到各平台，实现高…

程序猿
2025年12月20日
0000
好文分享

怎么利用JavaScript进行前端代码覆盖率统计？

答案：利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩，结合测试框架收集执行数据并生成报告。具体流程包括：在代码执行前通过Babel或Webpack插件（如babel-plugin-istanbul）插入计数器实现插桩；运行测试时记录哪些代码被执行；…

程序猿
2025年12月20日
1000
好文分享

typescript中的参数分享

TypeScript 中的参数共享允许组件间共享参数，实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数，使用 @Output 装饰器定义子组件事件，以便在子组件状态改变时通知父组件。参数共享提高复用性，简化状态管理，允许子组件向父组件发出通知，但应谨慎使用，避免大量数据共享…

程序猿
2025年12月19日
0000
好文分享

手机如何运行typescript方法

要在手机上运行 TypeScript 方法，可以使用 TypeScript 编译器或第三方库：TypeScript 编译器：将 TypeScript 代码编译成 JavaScript，然后集成到移动应用程序中。第三方库：如 React Native 或 NativeScript，允许使用 Typ…

程序猿
2025年12月19日
0000
好文分享

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2025年12月19日
0000
好文分享

TypeScript基本用法和语法

TypeScript 是一种具有类型系统的 JavaScript 超集，提供以下特性：类型注解：确保变量、函数和类的类型一致。接口：定义方法和属性，供类实现。枚举：提供命名常量集。泛型：创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

程序猿
2025年12月19日
0000

发表回复

登录后才能评论

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

关于作者

相关推荐

发表回复