视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化

现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器,比如 openai 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告,参阅本站报道《我在模拟世界!openai 刚刚公布 sora 技术细节:是数据驱动物理引擎》。

火山写作 火山写作

字节跳动推出的中英文AI写作、语法纠错、智能润色工具,是一款集成创作、润色、纠错、改写、翻译等能力的中英文 AI 写作助手。

火山写作 167 查看详情 火山写作

文本生视频模型的这些近期应用既有望实现互联网规模级别的知识迁移(比如从生成人类视频到生成机器人视频),也有望打通实现通用智能体的道路(比如用单个策略控制不同环境中不同形态的机器人来执行多种多样的任务)。
然而,现实情况是,文本生视频模型的下游应用还很有限,原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。
虽然理论上可以通过扩大数据集和模型大小来有效减轻这些问题,但对视频生成模型来说,这会很困难。
部分原因是标注和整理视频的人力成本很高。另外,视频生成方面还没有一个非常适合大规模扩展的架构。
除了扩大规模,LLM 领域的另一个重要突破是能整合外部反馈来提升生成质量。那文本生视频模型也能受益于这一思路吗?
为了解答这一问题,一个多所机构的研究团队探索了视频生成模型能自然获得的两种反馈类型,即来自视觉 – 语言模型(VLM)的 AI 反馈和将生成的视频转换成运动控制时得到的真实世界执行反馈
为了利用这些反馈来实现视频生成模型的自我提升,该团队提出了 VideoAgent,即视频智能体。该研究有三位共一作者:Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他参与者包括滑铁卢大学 Sebastian Fischmeister 教授、斯坦福大学基础模型研究中心(CRFM)主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang(杨梦娇)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化

论文标题:VideoAgent: Self-Improving Video Generation
论文地址:https://arxiv.org/pdf/2410.10076
代码地址:https://github.com/Video-as-Agent/VideoAgent
不同于将生成的视频直接转换成运动控制的策略,VideoAgent 的训练目标是使用来自预训练 VLM 的反馈来迭代式地优化生成的视频规划。
在推理阶段,VideoAgent 会查询 VLM 以选择最佳的改进版视频规划,然后在环境中执行该规划。
在在线执行过程中,VideoAgent 会观察任务是否已成功完成,并根据来自环境的执行反馈和从环境收集的其它数据进一步改进视频生成模型。
生成的视频规划获得了两方面的改进:
该团队受一致性模型的启发,提出了用于视频扩散模型的自我调节一致性(self-conditioning consistency),其可将来自视频扩散模型的低质量样本进一步优化成高质量样本。
当可在线访问环境时,VideoAgent 会执行当前视频策略并收集其它成功轨迹,以进一步在成功轨迹上微调视频生成模型。
图 1 是 VideoAgent 的直观图示。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
通过自我调节一致性实现视频优化
他们首先考虑的是基于第一帧和语言的视频生成,即根据语言描述找到从初始图像开始的一个图像帧序列。通常来说,当某个样本来自一个视频生成模型时,其中一部分更真实(开始部分),另一部分则充满幻觉(结尾部分)。
也就是说,虽然生成的视频规划可能无法完全完成指定的任务,但它能提供有意义的信息,以帮助进一步改进以实现正确的规划。
为了利用这样的部分进展,该团队使用了一个视频一致性模型,即基于之前的自我生成的样本为 ground truth 视频执行扩散,这样模型就可以学会保留视频的真实部分,同时优化其中的幻觉部分。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
此外,除了基于之前生成的样本来优化视频,该团队还纳入了反馈,包括来自人类的反馈和来自 VLM 的反馈。这被称为反馈引导的自我调节一致性
这里我们仅描述了其大概方法,详细过程和形式化描述请参阅原论文。
通过 VLM 引导的视频生成实现推理
在训练了视频生成模型和视频优化模型之后,可采样视频生成模型然后迭代式地使用优化模型来实现视频优化。
具体来说,VideoAgent 首先会基于第一帧和语言的视频生成来「猜测」视频规划。
接下来,迭代地使用优化模型来执行优化,这里会使用 VLM 来提供反馈。
算法 1 展示了使用 VLM 反馈的视频生成和优化模型。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
算法 2 则给出了在推理时间生成、优化和选择视频规划(重新规划)的方式。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
通过在线微调实现自我改进
除了上面描述的基于自我调节一致性的视频优化,该团队还进一步将视频生成和视频细化的组合描述为一种策略,该策略可以通过在线交互期间从环境中收集的额外真实数据进行训练,从而实现改进。
有多种强化学习技术可以满足这一需求,算法 3 描述了其细节。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
实验
为了评估 VideoAgent,该团队进行了多个实验,包括该模型的端到端成功率、不同组件的效果以及能否提升真实机器人视频的质量。
数据集
实验中,该团队考虑了三个数据集:
Meta-World:11 个机器人操作任务,由模拟的 Sawyer 机器臂执行,视频演示是从三个不同的摄像机角度拍摄的。
iTHOR:一个模拟的 2D 目标导航基准,其中智能体在四种房间类型中搜索指定的目标物体。
BridgeData V2:一个真实的机器人操作数据集。
端到端任务成功率
实验过程就不过多赘述了,直接来看结果。
首先,表 1 给出了在 Meta-World 上的端到端任务成功率。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
可以看到,自我调节一致性已经能让 VideoAgent 的总体成功率超越基线(19.6% 到 22.3%),其中一些任务更是大幅提升,比如在关闭水龙头(faucet-close)任务上的成功率从 12% 猛增至 46.7%。
而如果再进一步引入在线微调,成功率还能进一步提升,并且多迭代一次都会多一点提升。
引入重新规划后,VideoAgent 的优势仍然存在,并且总体任务成功率达到了 50%,达成了该设置下的当前最佳水平。
表 2 展示了在 iTHOR 上的成功率,可以看到 VideoAgent 同样全面优于基线 AVDC。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
理解 VideoAgent 不同组件的效果
该团队也通过对比研究分析了 VideoAgent 不同组件的效果,具体包括 (1) 向优化模型提供不同类型的反馈,(2) 改变优化和在线迭代的次数,(3) 调整 VLM 反馈的质量。
表 3 展示了不同 VLM 反馈的效果(基于 Meta-World)。可以看到,不管是二元反馈还是描述性反馈,都比没有反馈好,更比基线 AVDC 好得多。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
图 3 和 4 分别展示了优化和在线迭代的次数的影响。整体来看,增多迭代次数有助于提升模型,并且效果很显著。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
由于这项研究是首批利用 VLM 为视频生成提供反馈的研究之一,因此一个重要的研究课题是:了解 VLM 是否真的可以为视频生成提供足够准确的反馈。
表 4 给出了 VLM 反馈的各项性能指标,这里使用了人工标注作为 ground truth 来进行评估。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
可以看到,原始提示词(Unweighted)的准确度是 69%,这说明 VLM 足以评价生成的视频。而通过重新加权来惩罚假正例(Weighted)还能大幅提升其准确度。另外值得注意的是,从提示词中移除第三个摄像头甚至还能获得更高的准确度,这说明 VLM 的准确性会受到部分可观测性的影响。
在真实世界视频上评估自我优化
最后,该团队也评估了 VideoAgent 改进真实视频的能力。结果见表 5。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
可以看到,在视频分数的 5 个子指标上,VideoAgent 在其中 4 个上表现更优,在唯一的例外「动态分数」上也与基线差距细微。此外,VideoAgent 在 CLIP 分数、流一致性和人类评估上也都更好。这表明 VideoAgent 可以生成更流畅、更符合现实世界的物理逻辑的视频。
最后,图 5 给出了一个定性评估结果。
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
其中,中间行是基线,可以看到其出现了幻觉(碗消失了),而 VideoAgent 很好地完成了视频生成任务。

以上就是视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/788102.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
美图秀秀文字特效无法应用怎么办 美图秀秀文字特效修复方法
上一篇 2025年11月26日 13:09:32
下一篇 2025年11月26日 13:09:36

相关推荐

  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • NextAuth getToken 在服务端返回 null 的问题排查与解决

    问题描述 在使用 Next.js 和 NextAuth 构建应用程序时,有时需要在服务端获取用户的身份验证信息。getToken 函数是 NextAuth 提供的一个便捷方法,用于从请求中提取 JWT (JSON Web Token)。然而,在某些情况下,尤其是在使用 getServerSidePr…

    2026年5月10日
    000
  • HTML文档如何工作?如何编辑HTML格式文件?

    HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?

    浏览器解析和渲染html的过程包括:1. 解析html构建dom树;2. 结合css构建渲染树;3. 布局计算元素位置;4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器,其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

    2026年5月10日 用户投稿
    000
  • GolangWeb项目异常捕获与日志记录

    答案:通过中间件使用defer和recover捕获panic,结合zap等结构化日志库记录请求链路信息,为每个请求生成trace ID,实现异常捕获与可追踪日志,提升系统稳定性与可观测性。 在Go语言Web项目中,异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

    2026年5月10日
    000
  • Python官网用户调查的参与方式_Python官网反馈提交详细教程

    答案是通过访问Python官网新闻页面、邮件邀请链接或GitHub仓库提交反馈。具体为:访问官网查找用户调查公告,或点击邮件中的专属链接参与,在GitHub的cpython仓库提交技术建议,并注意如实填写问卷与保护隐私。 如果您希望参与Python官网的用户调查并提交反馈,可以通过官方指定的渠道完成…

    2026年5月10日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误解析

    本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称(dsn)的规范格式,特别是主机地址部分的配置,以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

    2026年5月10日
    000
  • Tensorflow 音乐预测

    在本文中,我展示了如何使用张量流来预测音乐风格。在我的示例中,我比较了电子音乐和古典音乐。 你可以在我的github上找到代码:https://github.com/victordalet/sound_to_partition i – 数据集 第一步,您需要创建一个数据集文件夹,并在里面…

    2026年5月10日
    000
  • 学习了Python的Flask后,Go语言的Web框架该选Gin还是Beego?

    学习编程时,选择合适的框架至关重要。许多开发者在掌握Python Flask后,转向Go语言Web开发时,常常在Gin和Beego之间难以抉择。本文将深入分析,助您做出明智选择。 虽然网上搜索结果多建议使用Go原生标准库http,但实际上所有框架都是对http的封装。虽然使用http开发灵活,但工作…

    2026年5月10日
    000
  • JavaScript动态下拉菜单:实现日期选项与价格计算关联

    在现代web应用中,动态生成表单元素并使其具备交互逻辑是常见的需求。特别是在需要根据用户选择调整价格或服务参数的场景下,下拉菜单()常被用来展示一系列选项。本教程将指导您如何利用javascript动态生成一个包含日期选项的下拉菜单,并为每个选项关联一个具体的数值(如剩余天数),进而实现一个基于用户…

    2026年5月10日
    000
  • 如何在不暴露密钥的情况下,在客户端创建 Stripe Payment Link

    本文介绍了在纯静态网站环境下,如何利用 Stripe Payment Link 实现商品售卖,并着重讨论了在不暴露 Stripe 密钥的前提下,客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险,并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

    2026年5月10日
    000
  • 解决Go语言中GOPATH未设置错误及工作区配置指南

    本文旨在解决go语言开发中常见的“gopath not set”错误,并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展,以及一些高级配置技巧,旨在帮助开发者建立一个高效、规范的go开发环境,确保包的下载、编译和运行顺利进行。 Go语言在…

    2026年5月10日
    000
  • 掌握 JavaScript 中的高阶函数

    现代 javascript 开发严重依赖函数式编程,掌握其基本思想将极大提高你的编码能力。 高阶函数是这个范式最有力的武器之一。为了帮助您掌握它们,本文将介绍它们的定义、应用程序和独特的实现。 1. 函数式编程 函数式编程是一种编程范式,强调: 纯函数:没有副作用的函数,对于相同的输入返回相同的输出…

    2026年5月10日
    000
  • Golang使用assert库简化测试断言

    使用testify/assert库可提升Go测试代码的可读性和效率,通过go get github.com/stretchr/testify/assert安装后导入包,用assert.Equal等函数替代冗长的手动判断,支持丰富断言方法如Equal、True、Nil、Contains等,并可添加自定…

    2026年5月10日
    100
  • 如何处理在线编辑HTML时外部链接验证的处理方法

    在线编辑HTML时需验证外部链接以保障安全与可用性,可通过自动检测标记外链并添加rel属性提升安全性;2. 实时验证链接有效性,利用HEAD请求检查状态码并在编辑界面提示结果;3. 配置可信域名白名单控制高风险链接输入,适用于合规要求高的场景;4. 提供友好反馈机制,对无效或可疑链接弹出提示并支持新…

    2026年5月10日
    000
  • 怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    要在c++++项目中使用tensorflow lite micro进行嵌入式ai开发,关键步骤包括:1. 确定mcu平台并安装对应的交叉编译工具链;2. 配置python环境并安装必要的依赖包;3. 获取并裁剪tflm源码,保留核心模块;4. 将tflm静态库集成到c++工程中;5. 按照模型加载、…

    2026年5月10日 用户投稿
    000
  • Golang图片处理技巧 imaging库裁剪缩放

    答案:使用Go语言的imaging库可高效实现图片裁剪与缩放,其API简洁易用,支持多种缩放算法(如Lanczos、CatmullRom)以平衡质量与性能,提供Crop和CropAnchor两种裁剪方式实现精确区域控制,并建议通过算法选择、内存管理、并发处理和错误校验等策略优化性能与稳定性。 在Go…

    2026年5月10日
    000
  • 如何通过GitHub API高效获取超过100个用户列表(分页教程)

    本教程旨在解决使用GitHub API获取用户列表时遇到的默认100个用户限制问题。我们将详细介绍两种主要的分页策略:利用Octokit库内置的paginate方法实现自动化分页,以及手动实现基于since参数的循环分页逻辑。文章将提供清晰的代码示例,并强调在不同场景下选择合适方法的注意事项,特别是…

    2026年5月10日
    000
  • c语言里面字符是什么意思

    字符在 C 语言中以单个字节存储于 char 变量中,用单引号括起表示常量,例如 ‘A’。字符变量用于存储字符值,可使用函数如 putchar() 输出、getchar() 输入、toupper() 转换大小写。字符数组存储多个字符,如 char name[10]。字符串是带…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信