视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌videopoet大模型表现很亮眼。

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成
本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。
VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

有人对于这个大模型生成视频的长度表示惊讶:

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

来源:https://twitter.com/cybersphere_ai/status/1737257729167966353
还有人表示这是一个革命性的大语言模型。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

也有人呼吁,谷歌需要赶紧把 VideoPoet 开源了,大趋势不等人。
随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展示了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。
为了探索语言模型在视频生成中的应用,来自谷歌的研究者引入了一种大语言模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和扩展,以及视频转音频。
VideoPoet 效果展示
文本生成视频
提示:一只狗戴着耳机听音乐,细节丰富,8k。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

图像生成视频
对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。
蒙娜丽莎开始打哈欠,只要输入一张图片,外加一句提示:一个女人打哈欠。就会得到下面的效果。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面浮动的云海。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

将视频风格化
VideoPoet 还能够根据文本提示对输入视频进行风格化。
提示(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

Fireflies.ai Fireflies.ai

自动化会议记录和笔记工具,可以帮助你的团队记录、转录、搜索和分析语音对话。

Fireflies.ai 145 查看详情 Fireflies.ai

生成音频
VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
长视频
VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下面是 VideoPoet 从文本输入生成长视频的示例展示。提示:FPV 镜头展示了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

扩展视频
用户可以改变提示,从而扩展视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩展后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

交互式视频编辑
对于提供的输入视频(最左边),用户可以改变物体的运动来执行不同的动作。如下所示,中间三个没有文本提示,最后一个文本提示为:烟雾背景下启动。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频修复
VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行修复。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

为了展示 VideoPoet 的功能,谷歌还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。然后,谷歌为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
方法简介
如下图所示,VideoPoet 可以将输入图像动画化以生成一段视频,并且可以编辑视频或扩展视频。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。
视频生成器
使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。
通过使用多个 tokenizer(用于视频和图像的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归语言模型来学习跨视频、图像、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

评估结果
研究团队使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评估者进行偏好评分。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。
参考链接:
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
https://sites.research.google/videopoet/stylization/

以上就是视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1004406.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 23:42:46
下一篇 2025年12月1日 23:43:28

相关推荐

  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    000
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • html5使用video与canvas实现视频截图 html5使用多媒体融合的技巧

    首先通过结合HTML5的video与canvas元素实现视频截图,具体步骤包括嵌入视频和canvas标签,利用JavaScript将当前视频帧绘制到canvas并导出图像数据;接着通过预加载元数据、调整输出质量、使用离屏canvas及支持摄像头流等优化技巧提升性能;该技术广泛应用于视频会议拍照、在线…

    2025年12月23日
    000
  • track标签的作用?视频字幕怎么添加?

    track标签用于为html5的和元素添加文本轨道,最常见的应用是视频字幕,通过结合webvtt格式的字幕文件实现;2. 使用时需在标签内嵌套标签,设置kind(如subtitles、captions等)、src(指向.vtt文件)、srclang(字幕语言)、label(用户可见名称)和defau…

    2025年12月22日 好文分享
    100
  • HTML5视频怎么添加?video标签支持哪些格式?

    html5视频在某些浏览器无法播放的主要原因是视频格式和编码不兼容。1. 首先需提供多种格式,如mp4(h.264编码)、webm(vp8/vp9编码)和ogg(theora编码),以覆盖不同浏览器的支持范围;2. 确保视频文件内部编码正确,即使文件后缀为.mp4,也必须使用h.264视频和aac音…

    2025年12月22日
    000
  • html文件怎么转换成mp4

    将 HTML 文件转换为 MP4:使用屏幕录像软件录制 HTML 页面。导出视频为 MP4 格式。转换音频为 MP3(可选)。使用视频编辑软件编辑视频(可选)。最终导出为 MP4 格式。 如何将 HTML 文件转换为 MP4 步骤 1:使用屏幕录像软件 使用屏幕录像软件(如 OBS Studio 或…

    好文分享 2025年12月22日
    000
  • html如何修改日期样式

    在html中,可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式,只需要用该选择器选中元素,在设置具体样式即可,具体语法为“::-webkit-datetime-edit{属性:属性值}”。 本教程操作环境:windows7系统、CSS3&&HTML…

    2025年12月21日
    100
  • 单选框的type属性值为什么

    单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型;值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在HTML中,…

    2025年12月21日
    000
  • HTML中type是什么意思

    在HTML中,type是类型的意思,是一个标签属性,主要用于定义标签元素的类型或文档(脚本)的MIME类型;例在input标签中type属性可以规定input元素的类型,在script标签中type属性可以规定脚本的MIME类型。 本教程操作环境:windows7系统、html5版、Dell G3电…

    2025年12月21日
    000
  • HTML中ul标签如何去掉点?HTML无序列表的样式实例解析

    本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉,还有关于html的无序列表ul标签的样式解释,给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧 首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的: 大家应该都使用过ul无序列表标签,ul…

    2025年12月21日 好文分享
    000
  • html中的ol标签如何去掉标号呢?标签的使用方法总结

    本篇文章介绍了html的ol标签是怎么去掉序号标号的,这里还有代码的详细解释,还有介绍了关于html ol有序列表标签如何更改序号,下文介绍了三种序号,大家也可以自己去想填写怎样的序号。现在来看这篇文章吧 一、我们先看看html中的ol标签是如何去掉标号的呢: 我们都知道html的ol标签是个有序列…

    2025年12月21日 好文分享
    000
  • HTML ul标签的什么意思?HTML ul标签的作用详解

    本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法,还有关于html ul标签的解释,包含li标签的还有type属性对ul标签的使用情况,好了,下面大家一起来看文章吧 首先让我们先来解释一下HTML ul标签的意思: ul标签定义的是表格当中无序列表,表格当中的无序列表都是在 标签之中…

    2025年12月21日
    000
  • WebAssembly与JavaScript_javascript性能提升

    WebAssembly通过二进制格式和接近原生的执行速度提升JavaScript性能。1. 代码体积小、解析快,适合高负载场景;2. 支持C/C++、Rust等语言编译,增强计算能力;3. 与JavaScript互操作,关键路径用Wasm,其余用JS处理。适用于图像视频编辑、游戏引擎、数据处理等场景…

    2025年12月21日
    000
  • javascript框架和库是什么_如何选择React、Vue或Angular?

    JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构;React是UI组件库,生态灵活但需自行整合工具;Vue渐进式易上手,兼顾原型与工程化;Angular是全功能TypeScript框架,适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合,用来简化前端开发——…

    2025年12月21日
    000
  • React应用生产环境环境变量配置深度指南

    本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题,深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码,指导开发者正确配置和使用环境变量,解决api调用层面的`null`响应问题,确保应用在生产环境下的稳定运行。 在React应用开发中,环境变量(如API密钥…

    2025年12月21日
    000
  • JavaScript中的WebAssembly简介与使用_javascript WebAssembly

    WebAssembly是一种可在现代浏览器中运行的低级字节码,设计用于高性能应用,作为JavaScript的补充而非替代。它是一种二进制指令格式,具有紧凑体积和高效执行能力,支持C/C++、Rust等语言编译为.wasm文件,在接近原生速度下运行。主流浏览器均已支持,通过JavaScript加载和实…

    2025年12月21日
    000
  • JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

    JSDoc是一种JavaScript结构化注释规范,通过@param、@returns等标签描述代码元素,并借助工具生成HTML文档,结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解(Annotation)像Java那样的语法,但通过约定的注释格式和配套工具,可…

    2025年12月21日
    000
  • JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

    在JavaScript中可通过JSDoc使用联合类型注解,如string|number表示多类型支持,结合@param、@typedef等标签提升代码可读性与编辑器提示,适用于函数参数、返回值等场景。 在JavaScript中,虽然原生不支持类型注解,但在使用JSDoc配合现代编辑器(如VS Cod…

    2025年12月21日
    000
  • VS Code主题开发:告别JSON,拥抱脚本化生成

    vs code主题扩展最终需json格式定义,但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题,并能实现颜色动态计算,显著提升主题开发的灵活性与效率。 为什么选择脚本化生成VS Code主题? 在开发V…

    2025年12月20日
    000

发表回复

登录后才能评论
关注微信