详解Latte：去年底上线的全球首个开源文生视频DiT

程序猿 • 2025年11月11日 05:22:19 • 用户投稿 • 阅读 0

随着 Sora 发布成功，视频 DiT 模型引起了广泛关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域研究的重点。DiT 模型的成功为图像生成的规模化带来了新的可能性。

然而，由于视频数据的高度结构化和复杂性，将 DiT 扩展到视频生成领域是一项具有挑战性的任务。一支由上海人工智能实验室的研究团队和其他机构联合组成的团队，通过大规模的实验回答了这一问题。

去年11月，该团队已经发布了一款名为Latte的自研模型，其技术与Sora有相似之处。Latte是全球首个开源文生视频DiT，受到了广泛关注。许多开源框架如Open-Sora Plan (PKU)和Open-Sora (ColossalAI)都在使用和参考Latte的模型设计。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

开源链接：https://github.com/Vchitect/Latte项目主页：https://maxin-cn.github.io/latte_project/论文链接：https://arxiv.org/pdf/2401.03048v1.pdf

先来看下Latte的视频生成效果。

方法介绍

总的来说，Latte包含两个关键模块：预先训练的VAE和视频DiT。在预先训练的VAE中，编码器负责将视频逐帧从像素空间压缩到潜在空间，而视频DiT则负责提取token并进行时空建模以对潜在表征进行处理，最后，VAE解码器将特征映射回像素空间以生成视频。为了获得最佳的视频质量，研究者专注于Latte设计中的两个重要方面，即视频DiT模型的整体结构设计和模型训练的最佳实践细节。

（1）latte 整体模型结构设计探究

图 1. Latte 模型结构及其变体

作者提出了 4 种不同的 Latte 变体 (图 1)，从时空注意力机制的角度设计了两种 Transformer 模块，同时在每种模块中分别研究了两种变体（Variant）：

1. 单注意力机制模块，每个模块中只包含时间或者空间注意力。

时空交错式建模 (Variant 1): 时间模块插入到各个空间模块之后。时空顺序式建模 (Variant 2): 时间模块整体置于空间模块之后。

2. 多注意力机制模块，每个模块中同时包含时间与空间注意力机制 (Open-sora所参考变体)。

串联式时空注意力机制 (Variant 3): 时空注意力机制串行建模。并联式时空注意力机制 (Variant 4): 时空注意力机制并行建模并特征融合。

实验表明（图 2），通过对 4 种模型变体设置相同的参数量，变体 4 相较于其他三种变体在 FLOPS 上有着明显的差异，因此 FVD 上也相对最高，其他 3 种变体总体性能类似，变体 1 取得了最优异的性能，作者计划未来在大规模的数据上做更加细致的讨论。

图 2. 模型结构 FVD

（2）Latte 模型与训练细节的最优设计探究（The best practices）

除了模型总体结构设计，作者还探究了其他模型与训练中影响生成效果的因素。

1.Token 提取：探究了单帧 token（a）和时空 token（b）两种方式，前者只在空间层面压缩 token，后者同时压缩时空信息。实验显示单帧 token 要优于时空 token（图 4）。与 Sora 进行比较，作者猜测 Sora 提出的时空 token 是通过视频 VAE 进行了时间维度的预压缩，而在隐空间上与 Latte 的设计类似都只进行了单帧 token 的处理。

图 3. Token 提取方式，(a) 单帧 token 和 (b) 时空 token

图 4. Token 提取 FVD

2. 条件注入模式：探究了（a）S-AdaLN 和（b）all tokens 两种方式 (图 5)。S-AdaLN 通过 MLP 将条件信息转换为归一化中的变量注入到模型中。All token 形式将所有条件转化为统一的 token 作为模型的输入。实验证明，S-AdaLN 的方式相较于 all token 对于获得高质量的结果更加有效 (图 6)。原因是，S-AdaLN 可以使信息被直接注入到每一个模块。而 all token 需要将条件信息从输入逐层传递到最后，存在着信息流动过程中的损失。

图 5. (a) S-AdaLN 和 (b) all tokens。

图 6. 条件注入方式 FVD

3. 时空位置编码：探究了绝对位置编码与相对位置编码。不同的位置编码对最后视频质量影响很小 (图 7)。由于生成时长较短，位置编码的不同不足以影响视频质量，对于长视频生成，这一因素需要被重新考虑。

图 7. 位置编码方式 FVD

4. 模型初始化：探究使用 ImageNet 预训练参数初始化对模型性能的影响。实验表明，使用 ImageNet 初始化的模型具有较快的收敛速度，然而，随着训练的进行，随机初始化的模型却取得了较好的结果 (图 8)。可能的原因在于 ImageNet 与训练集 FaceForensics 存在着比较大的分布差异，因此未能对模型的最终结果起到促进作用。而对于文生视频任务而言，该结论需要被重新考虑。在通用数据集的分布上，图像与视频的内容空间分布相似，使用预训练 T2I 模型对于 T2V 可以起到极大的促进作用。

图 8. 初始化参数 FVD

5. 图像视频联合训练：将视频与图像压缩为统一 token 进行联合训练，视频 token 负责优化全部参数，图像 token 只负责优化空间参数。联合训练对于最终的结果有着显著的提升 (表 2 和表 3)，无论是图片 FID，还是视频 FVD，通过联合训练都得到了降低，该结果与基于 UNet 的框架 [2][3] 是一致的。

6. 模型尺寸：探究了 4 种不同的模型尺寸，S，B，L 和 XL (表 1)。扩大视频 DiT 规模对于提高生成样本质量有着显著的帮助 (图 9)。该结论也证明了在视频扩散模型中使用 Transformer 结构对于后续 scaling up 的正确性。

表 1. Latte 不同尺寸模型规模

图 9. 模型尺寸 FVD

定性与定量分析

作者分别在 4 个学术数据集（FaceForensics，TaichiHD，SkyTimelapse 以及 UCF101）进行了训练。定性与定量（表 2 和表 3）结果显示 Latte 均取得了最好的性能，由此可以证明模型整体设计是具有优异性的。

表 2. UCF101 图片质量评估

表 3. Latte 与 SoTA 视频质量评估

文生视频扩展

存了个图

视频图片解析/字幕/剪辑，视频高清保存/图片源图提取

17 查看详情

为了进一步证明 Latte 的通用性能，作者将 Latte 扩展到了文生视频任务，利用预训练 PixArt-alpha [4] 模型作为空间参数初始化，按照最优设计的原则，在经过一段时间的训练之后，Latte 已经初步具备了文生视频的能力。后续计划通过扩大规模验证 Latte 生成能力的上限。

讨论与总结

Latte 作为全世界首个开源文生视频 DiT，已经取得了很有前景的结果，但由于计算资源的巨大差异，在生成清晰度，流畅度上以及时长上与 Sora 相比还具有不小的差距。团队欢迎并在积极寻求各种合作，希望通过开源的力量，打造出性能卓越的自主研发大规模通用视频生成模型。

以上就是详解Latte：去年底上线的全球首个开源文生视频DiT的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/618603.html

latte sora 模型训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

sql中replace函数用法

上一篇 2025年11月11日 05:22:18

平安好车主如何查看理赔进度_平安好车主查看理赔进度详细方法

下一篇 2025年11月11日 05:22:27

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
1000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
0000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 用户投稿
2000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！的详细内容，更多请关注…

程序猿
2025年12月2日
0000
Sora怎样用物理模拟生成逼真_Sora用物理模拟生成逼真【逼真生成】

Sora可通过集成物理引擎与动态系统提升视频真实感：一、利用刚体动力学模拟物体运动，结合物理引擎计算位置姿态，并将结果作为条件输入扩散模型，确保运动符合牛顿定律且帧间连续；二、应用流体动力学求解纳维-斯托克斯方程，模拟水、烟、火等现象，通过多分辨率网格与中间表示图支持生成网络；三、引入柔体与布料模拟…

程序猿
2025年12月2日 • 用户投稿
0000
探究词表选择对语言模型训练的影响：一项具有突破性的研究

语言模型受不同词表的影响有哪些？如何平衡这些影响？在最近的一项实验中，研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT，一种小规模的架构（基于GPT-2 SMALL），共训练了12个模型。NanoGPT的网络架构配置为：12个注意力头、12层transformer，…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
1000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 用户投稿
8000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
南大俞扬深度解读：什么是「世界模型」？

随着媒体狂炒Sora，OpenAI的介绍材料中称Sora是「world simulator」，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论Sora是不是world simulator。什么是world models/世界模型当AI领域中讲到世界/w…

程序猿
2025年12月2日 • 用户投稿
1000
Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

这一周，OpenAI视频AI工具Sora一出现，可谓是炸翻了天。「饭碗保不住了」的恐惧，真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片不过，亚马逊的一位工程师Cameron Gould则认为，其实并不必对AI如…

程序猿
2025年12月2日 • 用户投稿
0000
OpenAI承诺多举措加强Sora监管严控深度伪造风险 !

近日，OpenAI与美国演员工会（SAG-AFTRA）等机构联合发布声明，宣布建立深度协作机制，重点防范其AI视频生成工具Sora可能带来的深度伪造滥用风险。![图片](https://example.com/sora_image1.jpg)Sora是OpenAI推出的文本生成视频模型，自亮相以来便…

程序猿
用户投稿 2025年12月2日
0000
Sora提示优化怎么迭代_Sora提示词迭代优化视频质量指南

明确答案：通过细化场景、动作、镜头语言和分层结构优化提示词可显著提升Sora视频质量。具体包括指定时间、气候、材质；定义行为路径与情绪；运用摄影术语控制视角；构建模块化提示结构并排除干扰元素。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ …

程序猿
2025年12月2日 • 用户投稿
1000
OpenAI联手多方严控Sora深度伪造风险，采取三大措施加强监管

近日，人工智能（AI）研究机构OpenAI与美国演员工会（SAG-AFTRA）、知名演员布莱恩·克兰斯顿以及多个表演者权益组织联合发布声明，宣布达成深度合作，旨在共同应对旗下AI视频生成工具Sora可能带来的深度伪造（Deepfake）滥用风险。Sora是OpenAI推出的一款基于文本生成视频的先进…

程序猿
用户投稿 2025年12月2日
1000
快手可灵AI聚焦影视制作，三季报亮眼加速构建AI应用生态

近日，快手召开了2025年第三季度业绩电话会议。针对当前备受关注的视频生成领域竞争态势以及可灵AI未来的技术演进方向，公司相关负责人在会上作出回应。目前，视频生成赛道已吸引众多互联网巨头与初创企业纷纷入局。这一现象不仅反映出该赛道具备广阔的发展前景，也说明行业整体仍处于技术快速迭代和产品形态持续探索…

程序猿
用户投稿 2025年12月2日
0000

发表回复

登录后才能评论