华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本!

近两年来,随着大规模图文数据集如LAION-5B的开放,图片生成领域涌现出了一系列效果惊人的方法,如Stable Diffusion、DALL-E 2、ControlNet和Composer。这些方法的出现使得图片生成领域取得了巨大的突破和进展。图片生成领域可谓在过去短短两年内取得了飞速发展。

然而,视频生成仍然面临着巨大的挑战。首先,与图片生成相比,视频生成需要处理更高维度的数据,并且需要考虑到额外的时间维度,这带来了时序建模的问题。为了驱动时序动态的学习,我们需要更多的视频-文本对数据。然而,对视频进行准确的时序标注非常昂贵,这限制了视频-文本数据集的规模。目前,现有的WebVid10M视频数据集仅包含10.7M个视频-文本对,与LAION-5B图片数据集相比,数据规模相差甚远。这严重制约了视频生成模型规模化扩展的可能性。

为解决上述问题,华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队于近期发布了 TF-T2V 视频方案:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

论文地址:https://arxiv.org/abs/2312.15770

项目主页:https://tf-t2v.github.io/

即将公开源代码:https://github.com/ali-vilab/i2vgen-xl (VGen 项目)。

该方案另辟蹊径,提出了基于大规模无文本标注视频数据进行视频生成,能够学习丰富的运动动态。

先来看看 TF-T2V 的视频生成效果:

文生视频任务

提示词:生成在冰雪覆盖的土地上有一只冰霜般的大生物的视频。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

提示词:生成一只卡通蜜蜂的动画视频。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

提示词:生成包含一辆未来幻想摩托车的视频。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

提示词:生成一个小男孩快乐微笑的视频。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

提示词:生成一个老人感觉头疼的视频。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

组合式视频生成任务

给定文本与深度图或者文本与素描草图,TF-T2V 能够进行可控的视频生成:

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

也可以进行高分辨率视频合成:

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

半监督设定

在半监督设定下的 TF-T2V 方法还可以生成符合运动文本描述的视频,如 「人从右往左跑」。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

方法简介

TF-T2V 的核心思想是将模型分为运动分支和表观分支,运动分支用于建模运动动态,表观分支用于学习视觉表观信息。这两个分支进行联合训练,最终可以实现通过文本驱动视频生成。

为了提升生成视频的时序一致性,作者团队还提出了一种时序一致性损失,显式地学习视频帧之间的连续性。

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

值得一提的是,TF-T2V 是一种通用的框架,不仅适用于文生视频任务,还能应用于组合式视频生成任务,如 sketch-to-video、video inpainting、first frame-to-video 等。

具体细节和更多实验结果可以参考原论文或者项目主页。

此外,作者团队还把 TF-T2V 作为教师模型,利用一致性蒸馏技术得到了 VideoLCM 模型: 

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

论文地址:https://arxiv.org/abs/2312.09109

腾讯混元文生视频 腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

腾讯混元文生视频 137 查看详情 腾讯混元文生视频

项目主页:https://tf-t2v.github.io/

即将公开源代码:https://github.com/ali-vilab/i2vgen-xl (VGen 项目)。

不同于之前视频生成方法需要大约 50 步 DDIM 去噪步骤,基于 TF-T2V 的 VideoLCM 方法可以只需要进行大约 4 步推理去噪就生成高保真的视频,极大地提升了视频生成的效率。

一起来看看 VideoLCM 进行 4 步去噪推理的结果:

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

具体细节和更多实验结果可以参考 VideoLCM 原论文或者项目主页。

总而言之,TF-T2V 方案为视频生成领域带来了新思路,克服了数据集规模和标注难题带来的挑战。利用大规模的无文本标注视频数据,TF-T2V 能够生成高质量的视频,并应用于多种视频生成任务。这一创新将推动视频生成技术的发展,为各行各业带来更广阔的应用场景和商业机会。

以上就是华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本!的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/444128.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 20:03:27
下一篇 2025年11月7日 20:07:13

相关推荐

  • 从助手函数内部识别调用它的控制器和方法

    本文探讨了如何在PHP助手函数内部,无需额外参数传递,动态获取调用该函数的控制器名称和方法名称。通过利用debug_backtrace机制并结合spatie/backtrace库,我们提供了两种解决方案:一种是在助手函数中直接集成回溯分析,另一种是更高级的全局异常处理方案,将控制器和方法信息自动注入…

    2025年12月10日
    000
  • 理解PHP Web应用中的静态变量、请求生命周期与数据持久化策略

    在PHP Web环境中,每次HTTP请求都会创建一个全新的、独立的执行环境,因此静态变量的值不会在不同请求之间保持。本文深入探讨了PHP中静态变量和方法的行为,解释了Web应用中数据持久化的必要性,并提供了通过数据库和会话管理实现数据持久化的策略,同时对比了Node.js等其他环境的差异。 1. P…

    2025年12月10日
    000
  • PHP常用框架怎样优化数据库查询性能 PHP常用框架查询优化的技巧

    n+1查询问题由orm的懒加载机制导致,当查询主表数据后,在循环中逐条访问关联数据时会触发大量额外查询,例如获取100个用户及其文章时产生101次查询;有效规避方法是使用预加载(eager loading),如laravel的with()或yii的joinwith(),在初始查询时通过join或in…

    2025年12月10日
    000
  • 安装和使用PHPCMS插件扩展网站功能的步骤

    phpcms扩展功能的核心方式是安装插件,具体步骤为:1.选择合适插件时需关注兼容性、来源信誉、功能匹配度、更新频率与安全性;2.下载后通过后台上传或手动ftp上传至指定目录完成安装;3.在后台启用插件并进行必要配置;4.最后进行全面测试确保无冲突。若插件不生效,常见解决思路包括清除缓存、检查文件权…

    2025年12月10日 好文分享
    000
  • word如何插入视频并播放_Word插入视频播放方法

    可通过“插入”功能添加在线视频,复制YouTube链接后在Word中选择“在线视频”粘贴链接即可嵌入;2. 插入本地视频文件需使用“对象”功能,选择“由文件创建”并浏览视频文件完成嵌入,双击图标可调用程序播放;3. 使用超链接可快速跳转播放视频,选中文字或图片添加链接至视频路径或网址,兼容所有格式。…

    2025年12月3日 软件教程
    100
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000
  • Go语言中正确地向切片追加元素:理解变量作用域与短声明

    本文深入探讨了Go语言中向切片追加元素时常见的陷阱——变量作用域与短声明(:=)的误用。通过分析一个具体的SQL查询结果切片构建案例,我们解释了为何在循环内部使用 := 会导致变量遮蔽和数据丢失,并提供了使用赋值操作符 = 进行正确追加的解决方案,帮助开发者避免此类编译错误和逻辑问题。 在go语言开…

    2025年12月2日 后端开发
    000
  • mysql能存储多少条数据

    %ignore_a_1%是中小型网站普遍使用的数据库之一,可是有很多人都并不清楚mysql到底能支持多大的数据量。下面我将带大家了解一下。 其实MySQL单表的上限,主要与操作系统支持的最大文件大小有关。 官方的介绍: MySQL 3.22 限制的表大小为4GB。由于在MySQL 3.23 中使用了…

    2025年12月2日 数据库
    000
  • 在表中设置外键实现的是哪一类数据完整性

    在表中设置外键实现的是参照完整性。 参照的完整性要求关系中不允许引用不存在的实体。与实体完整性是关系模型必须满足的完整性约束条件,目的是保证数据的一致性。参照完整性又称引用完整性。(推荐学习:MySQL视频教程) 参照完整性是关系模型的完整约束之一,属于数据完整性的一种,其余还有:实体完整性、用户自…

    2025年12月2日 数据库
    000
  • StableDiffusion怎样用LoRA定制画风_StableDiffusion用LoRA定制画风【画风定制】

    通过加载LoRA模型可精准控制Stable Diffusion的生成画风,需将.safetensors文件放入models/loras/目录并重启WebUI;2. 在提示词中使用调用,结合正向提示词描述风格、反向提示词排除干扰,并调整权重值(0.5~1.0)优化效果;3. 可引入Textual In…

    2025年12月2日 科技
    000
  • MVDiffusion:实现高质量多视角图像生成与精确复刻场景材质

    逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。 随着近两年来扩散模型的快速发展,图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型,已经对设计、游戏等领域产生了巨大的影响 然而,如何根据给定的文本或其他条件,产生…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信