华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本！

程序猿 • 2025年11月7日 20:06:53 • 科技 • 阅读 1

近两年来，随着大规模图文数据集如LAION-5B的开放，图片生成领域涌现出了一系列效果惊人的方法，如Stable Diffusion、DALL-E 2、ControlNet和Composer。这些方法的出现使得图片生成领域取得了巨大的突破和进展。图片生成领域可谓在过去短短两年内取得了飞速发展。

然而，视频生成仍然面临着巨大的挑战。首先，与图片生成相比，视频生成需要处理更高维度的数据，并且需要考虑到额外的时间维度，这带来了时序建模的问题。为了驱动时序动态的学习，我们需要更多的视频-文本对数据。然而，对视频进行准确的时序标注非常昂贵，这限制了视频-文本数据集的规模。目前，现有的WebVid10M视频数据集仅包含10.7M个视频-文本对，与LAION-5B图片数据集相比，数据规模相差甚远。这严重制约了视频生成模型规模化扩展的可能性。

为解决上述问题，华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队于近期发布了 TF-T2V 视频方案：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2312.15770

项目主页：https://tf-t2v.github.io/

即将公开源代码：https://github.com/ali-vilab/i2vgen-xl (VGen 项目)。

该方案另辟蹊径，提出了基于大规模无文本标注视频数据进行视频生成，能够学习丰富的运动动态。

先来看看 TF-T2V 的视频生成效果：

文生视频任务

提示词：生成在冰雪覆盖的土地上有一只冰霜般的大生物的视频。

提示词：生成一只卡通蜜蜂的动画视频。

提示词：生成包含一辆未来幻想摩托车的视频。

提示词：生成一个小男孩快乐微笑的视频。

提示词：生成一个老人感觉头疼的视频。

组合式视频生成任务

给定文本与深度图或者文本与素描草图，TF-T2V 能够进行可控的视频生成：

也可以进行高分辨率视频合成：

半监督设定

在半监督设定下的 TF-T2V 方法还可以生成符合运动文本描述的视频，如「人从右往左跑」。

方法简介

TF-T2V 的核心思想是将模型分为运动分支和表观分支，运动分支用于建模运动动态，表观分支用于学习视觉表观信息。这两个分支进行联合训练，最终可以实现通过文本驱动视频生成。

为了提升生成视频的时序一致性，作者团队还提出了一种时序一致性损失，显式地学习视频帧之间的连续性。

值得一提的是，TF-T2V 是一种通用的框架，不仅适用于文生视频任务，还能应用于组合式视频生成任务，如 sketch-to-video、video inpainting、first frame-to-video 等。

具体细节和更多实验结果可以参考原论文或者项目主页。

此外，作者团队还把 TF-T2V 作为教师模型，利用一致性蒸馏技术得到了 VideoLCM 模型：

论文地址：https://arxiv.org/abs/2312.09109

腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

137 查看详情

项目主页：https://tf-t2v.github.io/

即将公开源代码：https://github.com/ali-vilab/i2vgen-xl (VGen 项目)。

不同于之前视频生成方法需要大约 50 步 DDIM 去噪步骤，基于 TF-T2V 的 VideoLCM 方法可以只需要进行大约 4 步推理去噪就生成高保真的视频，极大地提升了视频生成的效率。

一起来看看 VideoLCM 进行 4 步去噪推理的结果：

具体细节和更多实验结果可以参考 VideoLCM 原论文或者项目主页。

总而言之，TF-T2V 方案为视频生成领域带来了新思路，克服了数据集规模和标注难题带来的挑战。利用大规模的无文本标注视频数据，TF-T2V 能够生成高质量的视频，并应用于多种视频生成任务。这一创新将推动视频生成技术的发展，为各行各业带来更广阔的应用场景和商业机会。

以上就是华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本！的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/444128.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Steam宣布AI生成内容的游戏上架将进行审核

上一篇 2025年11月7日 20:03:27

元宇宙产业联盟成立于普陀，首批20家机构加入共同支持上海未来产业发展

下一篇 2025年11月7日 20:07:13

好文分享

如何使用纯CSS实现在容器中反弹的小球（附源码）

本篇文章给大家带来的内容是关于如何使用纯css实现在容器中反弹的小球（附源码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 dom，…

程序猿
2025年12月24日
0000
好文分享

如何使用纯CSS实现菱形loader效果（附源码）

本篇文章给大家带来的内容是关于如何使用纯css实现菱形loader效果（附源码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 dom…

程序猿
2025年12月24日
0000
好文分享

html中如何加入视频_在HTML页面嵌入视频播放器【播放】

HTML提供五种视频嵌入方法：一、用标签嵌入本地视频，支持多格式与备用提示；二、用iframe嵌入YouTube视频；三、JavaScript动态创建控制；四、自动播放需静音配合用户交互；五、移动端需playsinline等属性适配。如果您希望在网页中展示视频内容，HTML 提供了原生的标签来直…

程序猿
2025年12月23日
0000
好文分享

动态生成HTML表格：优化JavaScript数据展示与导出

本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想，我们将数据与视图逻辑分离，首先将表格内容组织为JavaScript对象数组，然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

程序猿
2025年12月23日
0000
好文分享

HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能：1. 语义化标签优化渲染效率；2. Web Storage减少网络请求；3. Canvas/SVG降低资源加载量；4. Service Worker实现离线缓存；5. 原…

程序猿
2025年12月23日
0000
好文分享

利用UTM参数与GTM优化链接点击来源追踪

本文详细阐述了如何通过UTM参数精准追踪营销链接的点击来源，并深入探讨了Google Tag Manager (GTM) 在此过程中的高级应用。文章首先介绍了UTM参数的构成、生成方法及其在Google Analytics中的自动解析机制，强调其在识别流量来源方面的核心作用。随后，探讨了GTM如何通…

程序猿
2025年12月23日
0000
HTML5 视频画廊中动态管理封面图的实现

本文提供了一份关于在html5视频画廊中实现动态封面图管理的全面指南。它解决了管理多个视频元素及其对应封面图的常见问题，演示了如何利用javascript、css和正确的html结构，在视频播放时隐藏封面图，并在暂停时重新显示，以提供无缝的用户体验。在现代网页设计中，视频画廊是常见的交互元素，用于…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

怎么用html5看视频_HTML5视频播放器使用与故障排除

HTML5通过标签实现原生视频播放，支持controls、尺寸设置及多格式兼容；需注意浏览器格式支持差异、服务器MIME类型配置、CORS跨域限制及自动播放策略，可通过JavaScript检测格式支持、添加poster封面图等提升体验。在现代网页中，HTML5 提供了原生支持视频播放的能力，无需依…

程序猿
2025年12月23日
0000
好文分享

如何通过HTML在线展示数据_HTML在线数据展示实现与可视化方案

网页展示数据需结合HTML、CSS与JavaScript，首选table展示结构化数据，配合Chart.js等库实现可视化图表，通过fetch加载远程JSON动态渲染内容，并利用响应式设计与交互优化提升用户体验。在网页中展示数据，核心是将结构化信息清晰、直观地呈现给用户。HTML本身是内容载体，结…

程序猿
2025年12月23日
0000
好文分享

html在线几何图形绘制 html在线SVG应用实战教程

使用HTML与SVG结合可高效绘制几何图形。SVG基于XML，支持圆形、矩形、多边形、路径等，在任意分辨率下清晰。1. 基础元素包括rect、circle、ellipse、line、polygon、polyline和path。2. 实战示例：用polygon绘制三角形，path绘制五角星和弧线仪表盘…

程序猿
2025年12月23日
0000
好文分享

单页应用（SPA）中特定分类数据的API直链访问与性能考量

针对单页应用（SPA），本文探讨了如何通过URL直接访问特定分类数据，而非依赖客户端UI交互。文章揭示了SPA在初始加载时已获取所有数据，因此客户端分类选择对数据加载量无影响。核心策略是绕过前端界面，直接调用后端API获取所需数据，从而实现高效且精准的数据访问，并提供了具体API示例。理解单页应用…

程序猿
2025年12月23日
1000
好文分享

html视频poster属性怎么用_html视频封面图设置方法

poster属性用于设置video元素的封面图，提升美观与体验；2. 用法为在标签添加poster=”图片地址”，推荐配合controls和使用；3. 封面图建议尺寸匹配视频、格式选JPG或PNG、大小适中，并可截取视频关键帧；4. 注意路径正确，未设置时显示首帧，部分移动端…

程序猿
2025年12月23日
0000
好文分享

html视频playsinline属性作用_html视频内联播放功能

playsinline属性用于视频内联播放，避免移动设备自动全屏；添加playsinline和webkit-playsinline可提升兼容性，适用于短视频嵌入等场景，需注意安卓厂商实现差异及autoplay时需静音。在HTML中，playsinline 是一个用于标签的布尔属性，主要作用是**…

程序猿
2025年12月22日
0000
好文分享

视频在HTML里怎么设置自动播放_HTML视频设置autoplay属性方法详解

答案：HTML视频自动播放需结合autoplay和muted属性以提高成功率。1. 添加autoplay实现自动播放；2. 配合muted避免浏览器拦截；3. 不同浏览器策略不同，静音播放兼容性更好；4. 可用JavaScript检测播放状态并处理失败情况。在HTML中让视频自动播放，主要通过au…

程序猿
2025年12月22日
0000
好文分享

jQuery循环中动态表格数据访问与比较教程

本文详细介绍了在jQuery循环中处理动态生成表格数据时常见的挑战与解决方案。我们将探讨如何正确使用.find()代替.children()来定位嵌套元素，解决.data()方法返回数字类型导致比较错误的问题，并提供一个基于事件监听的实用示例，以实现对用户修改数据的实时检测和保存。动态表格数据处理…

程序猿
2025年12月22日
0000
好文分享

HTML视频字幕怎么添加_视频字幕可访问性实现方法

答案：HTML视频字幕通过标签和WebVTT文件实现，确保路径正确、格式合规并用CSS或播放器库自定义样式，WebVTT因标准支持优于SRT和ASS。 HTML视频字幕的添加，本质上是为了提升视频的可访问性，让更多人能理解视频内容，包括听力障碍人士和使用不同语言的观众。实现方式主要依赖于标签，配合…

程序猿
2025年12月22日
0000
好文分享

HTML如何嵌入视频？video标签的用法是什么？

最核心且直接的html视频嵌入方式是使用标签，通过src属性或标签指定视频源以确保兼容性，结合controls、preload、poster等属性优化播放体验与加载性能，并利用javascript api实现自定义控制、字幕支持、全屏及画中画等高级功能，最终通过提供多格式视频源（如mp4和webm）…

程序猿
2025年12月22日
0000
怎么嵌入HTML视频？媒体播放新手入门

在html中嵌入视频的关键是使用标签并正确设置相关属性。1. 使用标签作为容器，定义width和height设置播放器尺寸；2. 添加controls属性以启用默认播放控制条；3. 通过多个标签提供不同格式的视频源（如mp4和webm），确保浏览器兼容性；4. 设置回退文本提示不支持html5视频的…

程序猿
2025年12月22日 • 好文分享
0000
揭秘canvas技术在数据可视化中的独特威力

发现Canvas技术在数据可视化中的独特作用随着数据时代的到来，数据可视化成为了一种重要的方式来呈现大量的数据。在数据可视化中，Canvas技术以其独特的优势在各个领域展示了巨大的潜力。本文将着重介绍Canvas技术在数据可视化中的独特作用，并给出具体的代码示例。 Canvas是HTML5中的一个…

程序猿
好文分享 2025年12月21日
0000
好文分享

使用localstorage存储数据所需的包有哪些？

localstorage是HTML5中的一项重要技术，它可以用来在客户端本地存储数据。在使用localstorage存储数据之前，我们需要确保在代码中引入合适的包来操作这个功能。在使用localstorage之前，我们需要在HTML文件中添加以下代码来引入localstorage的相关包：在以上…

程序猿
2025年12月21日
0000

发表回复

登录后才能评论

华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本！

方法简介

关于作者

相关推荐

发表回复