时间、空间可控的视频生成走进现实，阿里大模型新作VideoComposer火了

程序猿 • 2025年11月9日 05:43:07 • 用户投稿 • 阅读 2

在 AI 绘画领域，阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引领了可控图像生成的理论发展。但是，业界在可控视频生成上的探索依旧处于相对空白的状态。

相比于图像生成，可控的视频更加复杂，因为除了视频内容的空间的可控性之外，还需要满足时间维度的可控性。基于此，阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了 VideoComposer，即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2306.02018项目主页：https://videocomposer.github.io

前段时间，阿里巴巴在魔搭社区和 Hugging Face 低调开源了文生视频大模型，意外地受到国内外开发者的广泛关注，该模型生成的视频甚至得到马斯克本尊的回应，模型在魔搭社区上连续多天获得单日上万次国际访问量。

Text-to-Video 在推特

VideoComposer 作为该研究团队的最新成果，又一次受到了国际社区的广泛关注。

VideoComposer 在推特

事实上，可控性已经成为视觉内容创作的更高基准，其在定制化的图像生成方面取得了显着进步，但在视频生成领域仍然具有三大挑战：

复杂的数据结构，生成的视频需同时满足时间维度上的动态变化的多样性和时空维度的内容一致性；复杂的引导条件，已存在的可控的视频生成需要复杂的条件是无法人为手动构建的。比如 Runway 提出的 Gen-1/2 需要依赖深度序列作条件，其能较好的实现视频间的结构迁移，但不能很好的解决可控性问题；缺乏运动可控性，运动模式是视频即复杂又抽象的属性，运动可控性是解决视频生成可控性的必要条件。

在此之前，阿里巴巴提出的 Composer 已经证明了组合性对图像生成可控性的提升具有极大的帮助，而 VideoComposer 这项研究同样是基于组合式生成范式，在解决以上三大挑战的同时提高视频生成的灵活性。具体是将视频分解成三种引导条件，即文本条件、空间条件、和视频特有的时序条件，然后基于此训练 Video LDM (Video Latent Diffusion Model)。特别地，其将高效的 Motion Vector 作为重要的显式的时序条件以学习视频的运动模式，并设计了一个简单有效的时空条件编码器 STC-encoder，保证条件驱动视频的时空连续性。在推理阶段，则可以随机组合不同的条件来控制视频内容。

实验结果表明，VideoComposer 能够灵活控制视频的时间和空间的模式，比如通过单张图、手绘图等生成特定的视频，甚至可以通过简单的手绘方向轻松控制目标的运动风格。该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能，均获得满意的结果，证明了 VideoComposer 通用性。

图（a-c）VideoComposer 能够生成符合文本、空间和时间条件或其子集的视频；（d）VideoComposer 可以仅仅利用两笔画来生成满足梵高风格的视频，同时满足预期运动模式（红色笔画）和形状模式（白色笔画）

方法介绍

Video LDM

隐空间。Video LDM 首先引入预训练的编码器将输入的视频映射到隐空间表达，其中

。然后，在用预先训练的解码器 d 将隐空间映射到像素空间上去。在 videocomposer 中，参数设置

。

扩散模型。为了学习实际的视频内容分布

可灵大模型

可灵大模型（Kling）是由快手大模型团队自研打造的视频生成大模型

214 查看详情，扩散模型学习从正态分布噪声中逐步去噪来恢复真实的视觉内容，该过程实际上是在模拟可逆的长度为 T=1000 的马尔可夫链。为了在隐空间中进行可逆过程，Video LDM 将噪声注入到

中，得到噪声注入的隐变量

。然后其通过用去噪函数

作用在

和输入条件 c 上，那么其优化目标如下：

为了充分探索利用空间局部的归纳偏置和序列的时间归纳偏置进行去噪，VideoComposer 将

实例化为一个 3D UNet，同时使用时序卷积算子和交叉注意机制。

VideoComposer

组合条件。VideoComposer 将视频分解为三种不同类型的条件，即文本条件、空间条件和关键的时序条件，它们可以共同确定视频中的空间和时间模式。VideoComposer 是一个通用的组合式视频生成框架，因此，可以根据下游应用程序将更多的定制条件纳入 VideoComposer，不限于下述列出的条件：

文本条件：文本 (Text) 描述以粗略的视觉内容和运动方面提供视频的直观指示，这也是常用的 T2V 常用的条件；

空间条件：单张图 (Single Image)，选择给定视频的第一帧作为空间条件来进行图像到视频的生成，以表达该视频的内容和结构；单张早图 (Single Sketch)，使用 PiDiNet 提取第一个视频帧的草图作为第二个空间条件；风格（Style），为了进一步将单张图像的风格转移到合成的视频中，选择图像嵌入作为风格指导；

时序条件：运动矢量（Motion Vector），运动矢量作为视频特有的元素表示为二维向量，即水平和垂直方向。它明确地编码了相邻两帧之间的逐像素移动。由于运动矢量的自然属性，将此条件视为时间平滑合成的运动控制信号，其从压缩视频中提取标准 MPEG-4 格式的运动矢量；深度序列（Depth Sequence），为了引入视频级别的深度信息，利用 PiDiNet 中的预训练模型提取视频帧的深度图；掩膜序列（Mask Sequence），引入管状掩膜来屏蔽局部时空内容，并强制模型根据可观察到的信息预测被屏蔽的区域；草图序列（Sketch Sequnce），与单个草图相比，草图序列可以提供更多的控制细节，从而实现精确的定制合成。

时空条件编码器。序列条件包含丰富而复杂的时空依赖关系，对可控的指示带来了较大挑战。为了增强输入条件的时序感知，该研究设计了一个时空条件编码器（STC-encoder）来纳入空时关系。具体而言，首先应用一个轻量级的空间结构，包括两个 2D 卷积和一个 avgPooling，用于提取局部空间信息，然后将得到的条件序列被输入到一个时序 Transformer 层进行时间建模。这样，STC-encoder 可以促进时间提示的显式嵌入，为多样化的输入提供统一的条件植入入口，从而增强帧间一致性。另外，该研究在时间维度上重复单个图像和单个草图的空间条件，以确保它们与时间条件的一致性，从而方便条件植入过程。

通过 STC-encoder 处理条件后，最终的条件序列具有与相同的空间形状，然后通过元素加法融合。最后，沿通道维度将合并后的条件序列与连接起来作为控制信号。对于文本和风格条件，利用交叉注意力机制注入文本和风格指导。

训练和推理

两阶段训练策略。虽然 VideoComposer 可以通过图像 LDM 的预训练进行初始化，其能够在一定程度上缓解训练难度，但模型难以同时具有时序动态感知的能力和多条件生成的能力，这个会增加训练组合视频生成的难度。因此，该研究采用了两阶段优化策略，第一阶段通过 T2V 训练的方法，让模型初步具有时序建模能力；第二阶段在通过组合式训练来优化 VideoComposer，以达到比较好的性能。

推理。在推理过程中，采用 DDIM 来提高推理效率。并采用无分类器指导来确保生成结果符合指定条件。生成过程可以形式化如下：

其中，ω 是指导比例；c1 和 c2 是两组条件。这种指导机制在两条件集合判断，可以通过强度控制来让模型具有更加灵活的控制。

实验结果

在实验探索中，该研究证明作为 VideoComposer 作为统一模型具有通用生成框架，并在 9 项经典任务上验证 VideoComposer 的能力。

该研究的部分结果如下，在静态图片到视频生成（图 4）、视频 Inpainting（图 5）、静态草图生成生视频（图 6）、手绘运动控制视频（图 8）、运动迁移（图 A12）均能体现可控视频生成的优势。

团队介绍

公开信息显示，阿里巴巴在视觉基础模型上的研究主要围绕视觉表征大模型、视觉生成式大模型及其下游应用的研究，并在相关领域已经发表 CCF-A 类论文 60 余篇以及在多项行业竞赛中获得 10 余项国际冠军，比如可控图像生成方法 Composer、图文预训练方法 RA-CLIP 和 RLEG、未裁剪长视频自监督学习 HiCo/HiCo++、说话人脸生成方法 LipFormer 等均出自该团队。

以上就是时间、空间可控的视频生成走进现实，阿里大模型新作VideoComposer火了的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/521165.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PHP框架的社区是否重视包容性和多样性？

上一篇 2025年11月9日 05:43:06

第一狂战士卡赞鬼神化解锁

下一篇 2025年11月9日 05:43:07

用户投稿

html视频playsinline属性作用_html视频内联播放功能

playsinline属性用于视频内联播放，避免移动设备自动全屏；添加playsinline和webkit-playsinline可提升兼容性，适用于短视频嵌入等场景，需注意安卓厂商实现差异及autoplay时需静音。在HTML中，playsinline 是一个用于标签的布尔属性，主要作用是**…

程序猿
2026年5月10日
0000
用户投稿

如何使用纯CSS实现在容器中反弹的小球（附源码）

本篇文章给大家带来的内容是关于如何使用纯css实现在容器中反弹的小球（附源码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 dom，…

程序猿
2025年12月24日
0000
用户投稿

如何使用纯CSS实现菱形loader效果（附源码）

本篇文章给大家带来的内容是关于如何使用纯css实现菱形loader效果（附源码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 dom…

程序猿
2025年12月24日
0000
用户投稿

html中如何加入视频_在HTML页面嵌入视频播放器【播放】

HTML提供五种视频嵌入方法：一、用标签嵌入本地视频，支持多格式与备用提示；二、用iframe嵌入YouTube视频；三、JavaScript动态创建控制；四、自动播放需静音配合用户交互；五、移动端需playsinline等属性适配。如果您希望在网页中展示视频内容，HTML 提供了原生的标签来直…

程序猿
2025年12月23日
0000
HTML5 视频画廊中动态管理封面图的实现

本文提供了一份关于在html5视频画廊中实现动态封面图管理的全面指南。它解决了管理多个视频元素及其对应封面图的常见问题，演示了如何利用javascript、css和正确的html结构，在视频播放时隐藏封面图，并在暂停时重新显示，以提供无缝的用户体验。在现代网页设计中，视频画廊是常见的交互元素，用于…

程序猿
2025年12月23日 • 用户投稿
0000
用户投稿

怎么用html5看视频_HTML5视频播放器使用与故障排除

HTML5通过标签实现原生视频播放，支持controls、尺寸设置及多格式兼容；需注意浏览器格式支持差异、服务器MIME类型配置、CORS跨域限制及自动播放策略，可通过JavaScript检测格式支持、添加poster封面图等提升体验。在现代网页中，HTML5 提供了原生支持视频播放的能力，无需依…

程序猿
2025年12月23日
0000
用户投稿

html视频poster属性怎么用_html视频封面图设置方法

poster属性用于设置video元素的封面图，提升美观与体验；2. 用法为在标签添加poster=”图片地址”，推荐配合controls和使用；3. 封面图建议尺寸匹配视频、格式选JPG或PNG、大小适中，并可截取视频关键帧；4. 注意路径正确，未设置时显示首帧，部分移动端…

程序猿
2025年12月23日
0000
用户投稿

视频在HTML里怎么设置自动播放_HTML视频设置autoplay属性方法详解

答案：HTML视频自动播放需结合autoplay和muted属性以提高成功率。1. 添加autoplay实现自动播放；2. 配合muted避免浏览器拦截；3. 不同浏览器策略不同，静音播放兼容性更好；4. 可用JavaScript检测播放状态并处理失败情况。在HTML中让视频自动播放，主要通过au…

程序猿
2025年12月22日
1000
用户投稿

HTML视频字幕怎么添加_视频字幕可访问性实现方法

答案：HTML视频字幕通过标签和WebVTT文件实现，确保路径正确、格式合规并用CSS或播放器库自定义样式，WebVTT因标准支持优于SRT和ASS。 HTML视频字幕的添加，本质上是为了提升视频的可访问性，让更多人能理解视频内容，包括听力障碍人士和使用不同语言的观众。实现方式主要依赖于标签，配合…

程序猿
2025年12月22日
0000
用户投稿

HTML如何嵌入视频？video标签的用法是什么？

最核心且直接的html视频嵌入方式是使用标签，通过src属性或标签指定视频源以确保兼容性，结合controls、preload、poster等属性优化播放体验与加载性能，并利用javascript api实现自定义控制、字幕支持、全屏及画中画等高级功能，最终通过提供多格式视频源（如mp4和webm）…

程序猿
2025年12月22日
1000
怎么嵌入HTML视频？媒体播放新手入门

在html中嵌入视频的关键是使用标签并正确设置相关属性。1. 使用标签作为容器，定义width和height设置播放器尺寸；2. 添加controls属性以启用默认播放控制条；3. 通过多个标签提供不同格式的视频源（如mp4和webm），确保浏览器兼容性；4. 设置回退文本提示不支持html5视频的…

程序猿
2025年12月22日 • 用户投稿
0000
用户投稿

怎样在HTML里放视频

在HTML里添加视频的方法是，在html代码中添加一个标签，然后在标签内部添加需要的视频就可以了，例如【】。本文操作环境：windows10系统、html 5、thinkpad t480电脑。要在html中插入一段视频是非常简单的，因为我们有现成的video标签，通过该标签我们可以很方便地实现插…

程序猿
2025年12月21日
0000
用户投稿

html怎么加视频

html添加视频的方法：1、使用“”语句；2、使用“”语句；3、使用“”语句。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在 HTML 中播放视频的方法有很多种。 1、使用标签是 HTML 5 中的新标签。立即学习“前端免费学习笔记（深入）”；标签的作用是在 …

程序猿
2025年12月21日
0000
用户投稿

如何在HTML中插入视频

在HTML中，可以使用video标签插入视频，语法格式“”；video标签可以定义视频，支持MP4、WebM、Ogg三种视频格式。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电脑。视频是通过插件（比如 Flash）来显示的。然而，并非所有浏览器都…

程序猿
2025年12月21日
0000
用户投稿

html中怎么放视频

在html中，可以使用“”标签来插入视频，语法格式“”。video标签元素支持三种视频格式：MP4、WebM、Ogg。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。 html插入视频您的浏览器不支持 HTML5 video 标签。效果图：立即学习“前端免费学习笔记（…

程序猿
2025年12月21日
0000
用户投稿

怎么在html中插入视频和音频

插入视频的理想解决方法： HTML5 + + @@@###@@@ （视频教程推荐：html视频教程）代码如下： @@@###@@@ 插入音频的理想解决方法：立即学习“前端免费学习笔记（深入）”； @@@###@@@ 下面的例子使用了两个不同的音频格式。Html5 元素会尝试以 mp3 或 og…

程序猿
2025年12月21日
0000
用户投稿

如何在html页面中插入视频

video标签的使用 Video标签含有src、poster、preload、autoplay、loop、controls、width、height等几个属性，以及一个内部使用的标签。Video标签内除了可以包含标签外，还可以包含当指定的视频都不能播放时，返回的内容。 (1) src属性和post…

程序猿
2025年12月21日
3000
用户投稿

实现简易html视频播放器的方法

这篇文章主要介绍了实现简易html视频播放器的方法,h5创建视频播放器很简单，您只需要添加一些h5的标签即可创建出炫酷的播放器本文介绍了实现简易html视频播放器的方法，分享给大家，具体如下：文件列表 root@tianshl:/data/video# lshch.mp4 test.mp4 xy…

程序猿
2025年12月21日
0000
使用HTML5捕捉音频与视频信息概述及实例

这篇文章主要介绍了关于使用html5捕捉音频与视频信息概述及实例，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下音频与视频信息的捕捉一直是Web开发中的一个难点，下面为大家介绍一种新的API,该API通过使用navigatior.getUserMedia()方法来让Web应用程序拥有…

程序猿
用户投稿 2025年12月21日
0000
在html里怎么添加flash视频格式(flv、swf)文件

这次给大家带来在html里怎么添加flash视频格式(flv、swf)文件，在html里添加flash视频格式(flv、swf)文件的注意事项有哪些，下面就是实战案例，一起来看一下。 flash文件的格式：.FLV 和 .SWF flash视频格式有两种扩展名可以使用：.flv和.swf。他们有什么…

程序猿
用户投稿 2025年12月21日
0000

发表回复

登录后才能评论