视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌videopoet大模型表现很亮眼。

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成
本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。
VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

有人对于这个大模型生成视频的长度表示惊讶:

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

来源:https://twitter.com/cybersphere_ai/status/1737257729167966353
还有人表示这是一个革命性的大语言模型。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

也有人呼吁,谷歌需要赶紧把 VideoPoet 开源了,大趋势不等人。
随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展示了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。
为了探索语言模型在视频生成中的应用,来自谷歌的研究者引入了一种大语言模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和扩展,以及视频转音频。
VideoPoet 效果展示
文本生成视频
提示:一只狗戴着耳机听音乐,细节丰富,8k。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

图像生成视频
对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。
蒙娜丽莎开始打哈欠,只要输入一张图片,外加一句提示:一个女人打哈欠。就会得到下面的效果。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面浮动的云海。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

将视频风格化
VideoPoet 还能够根据文本提示对输入视频进行风格化。
提示(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

Fireflies.ai Fireflies.ai

自动化会议记录和笔记工具,可以帮助你的团队记录、转录、搜索和分析语音对话。

Fireflies.ai 145 查看详情 Fireflies.ai

生成音频
VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
长视频
VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下面是 VideoPoet 从文本输入生成长视频的示例展示。提示:FPV 镜头展示了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

扩展视频
用户可以改变提示,从而扩展视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩展后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

交互式视频编辑
对于提供的输入视频(最左边),用户可以改变物体的运动来执行不同的动作。如下所示,中间三个没有文本提示,最后一个文本提示为:烟雾背景下启动。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频修复
VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行修复。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

为了展示 VideoPoet 的功能,谷歌还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。然后,谷歌为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
方法简介
如下图所示,VideoPoet 可以将输入图像动画化以生成一段视频,并且可以编辑视频或扩展视频。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。
视频生成器
使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。
通过使用多个 tokenizer(用于视频和图像的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归语言模型来学习跨视频、图像、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

评估结果
研究团队使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评估者进行偏好评分。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。
参考链接:
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
https://sites.research.google/videopoet/stylization/

以上就是视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1004406.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 23:42:46
下一篇 2025年12月1日 23:43:28

相关推荐

  • mac怎么解决“您的磁盘几乎已满”_Mac磁盘几乎已满解决方法

    首先清理系统缓存和临时文件,接着卸载不常用应用程序,然后管理媒体与下载文件,最后启用优化存储功能以释放磁盘空间。 如果您在使用Mac时收到“您的磁盘几乎已满”的提示,这通常意味着启动磁盘的可用存储空间不足,可能导致系统运行缓慢或无法保存新文件。以下是解决此问题的操作步骤。 本文运行环境:MacBoo…

    2025年12月6日 系统教程
    000
  • 智象未来亮相 WAIC:多模态智能体 重塑创作的未来版图

    2025 世界人工智能大会(waic)期间,智象未来(hidream.ai)联合创始人兼首席技术官姚霆发表主题演讲,系统阐释了多模态智能体在内容创作领域的技术突破与商业化实践。作为聚焦多模态生成的 ai 创新企业,智象未来期待通过探索多模态大模型的有效落地形式, “让创作回归灵感,让时间忠于故事” …

    2025年12月5日 行业动态
    000
  • winmm.dll丢失怎么解决 下载修复方法分享

    电脑提示:“无法启动程序,因为计算机中丢失winmm.dll。尝试重新安装该程序以解决此问题。”遇到这种情况,很多人会感到困惑。实际上,winmm.dll文件丢失是较为普遍的问题,通常由系统文件损坏、误删或病毒攻击引起。本文将提供几种实用的下载与修复方案,助你迅速恢复系统正常运行。 一、winmm.…

    2025年12月5日 电脑教程
    000
  • js如何实现图片镜像翻转 4种镜像处理方式玩转图像变换

    在js中实现图片镜像翻转主要通过canvas和css两种方式,具体步骤如下:1. 使用canvas时,水平翻转需调用ctx.scale(-1, 1)并平移原点至右侧;2. 垂直翻转使用ctx.scale(1, -1)并平移原点至下方;3. 同时水平与垂直翻转则设置ctx.scale(-1, -1)并…

    2025年12月5日 web前端
    100
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • 电脑主机内存条插槽位置及正确安装步骤,保证系统稳定运行无故障

    内存条插槽通常位于主板cpu插槽附近,是带有卡扣的细长接口。识别不同类型内存插槽主要看防呆缺口位置,如ddr4缺口偏右、ddr3偏左。安装时常见错误包括未完全插紧、静电损伤、方向错误强行插入及混用不兼容内存。验证方法包括开机进入bios查看识别容量、操作系统内检查内存信息、运行windows内存诊断…

    2025年12月4日 游戏教程
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • VSCode怎么出现波浪线_VSCode错误提示和语法检查功能说明教程

    VSCode中的波浪线是语言服务、Linter和编译器协同提供的实时反馈,红色表示错误(如语法错误),黄色表示警告(如未使用变量),绿色或下划线表示建议(如代码优化),通过悬停查看提示、检查配置文件(如tsconfig.json、.eslintrc)、使用“问题”面板(Ctrl+Shift+M)定位…

    2025年12月4日
    100
  • 水冷散热器性能对比:EK-QuantumMagnitudeS360vs酷冷至尊冰神E360

    ek-quantummagnitudes360在散热性能和静音效果上优于酷冷至尊冰神e360,而酷冷至尊冰神e360在性价比和rgb灯效上更具优势。ek-quantummagnitudes360适合追求高性能和静音的用户,酷冷至尊冰神e360则适合预算有限且注重rgb灯效的用户。 水冷散热器性能对比…

    2025年12月3日
    000
  • QLCSSD寿命测试:三星870QVO8TB写入量实测

    三星870qvo 8tb的写入耐久性在测试中表现出色,实际写入量超过了标称的tbw。1)写入量远超预期,展示了qlc技术的进步;2)采用先进的固件优化,延长了ssd的寿命;3)在接近tbw值时,性能依然稳定,证明了其寿命管理策略的有效性。 QLCSSD寿命测试:三星870QVO8TB写入量实测 在进…

    2025年12月3日
    000
  • 鼠标突然失灵 10种常见故障修复指南

    在日常工作或娱乐过程中,鼠标是我们与电脑互动最频繁的外设之一。一旦出现故障,将极大影响操作效率。那么鼠标坏了该如何应对?今天驱动哥为大家整理了10种常见的鼠标问题及其解决方法,简单易懂,新手也能轻松上手。 鼠标右键无响应 可能原因:右键物理损坏、系统设置错误或驱动程序冲突。 应对措施: 将鼠标插到另…

    2025年12月3日 电脑教程
    000
  • 英特尔ArcA750vs英伟达GTX1660Super:性价比逆袭测试

    英特尔arc a750在性价比上成功逆袭了英伟达gtx 1660 super。1)在最新游戏中,a750表现出色,如《赛博朋克2077》帧率和视觉效果更好;2)a750定价低,提供更好的1080p高帧率游戏体验;3)在创意应用中,a750硬件加速功能出色,缩短处理时间;4)未来,a750性能有望通过…

    2025年12月3日
    000
  • EV剪辑视频如何换封面?EV剪辑视频换封面教程

    ev剪辑是一款功能全面的%ign%ignore_a_1%re_a_1%工具,具备剪辑、特效滤镜、转场动画等多种实用功能。其中,视频换封面功能可以帮助用户通过个性化封面突出视频主题,吸引观众注意,从而提升点击率。那么,如何在ev剪辑中更换视频封面呢?以下是详细操作教程: EV剪辑视频怎么换封面?详细图…

    2025年12月3日 软件教程
    000
  • 会声会影x9怎么录音?会声会影x9录音的操作步骤

    会声会影x9是一款功能强大的视频剪辑工具,软件将录音功能与视频编辑功能紧密结合,支持用户直接通过麦克风录制音频,并将其应用到当前的视频项目中。此外,该软件还具备在录音过程中自动调节音量的功能,有效防止音量过大或过小的问题。接下来将详细介绍如何使用会声会影x9进行录音操作,有需要的朋友不妨参考一下。 …

    2025年12月3日 软件教程
    000
  • 会声会影x9怎么剪辑视频?会声会影x9剪辑视频的方法

    会声会影x9是一款功能全面、操作便捷的视频剪辑工具。它的界面设计清晰明了,通过简单的拖放操作即可完成视频编辑任务,即便是初学者也能迅速掌握使用方法。会声会影x9支持多轨道编辑,用户能够同时处理多个视频与音频素材,从而轻松制作出复杂的剪辑效果。 会声会影x9如何剪辑视频?以下是具体的操作流程: 1、启…

    2025年12月3日 软件教程
    000
  • EV剪辑怎么覆盖视频?EV剪辑覆盖视频的操作方法

    EV剪辑是一款功能强大的视频编辑神器,提供了多种丰富的功能,如剪辑工具,包括剪切、拼接、覆盖、调色、字幕添加等。EV剪辑操作界面简洁直观,易于上手,为了对视频进行精细化处理,往往需要覆盖视频,把多余的内容删除替换掉,从而提升视频质量。那么如何将新的视频片段覆盖到原有视频的特定位置,从而实现对视频内容…

    2025年12月3日 软件教程
    000
  • 会声会影x9怎么导出视频?会声会影x9导出视频的操作步骤

    %ignore_a_1%是一款功能强大的视频编辑工具,具备多样化的操作特性,支持多种视频输出格式,如mp4、avi、wmv等,能够适配各类播放设备和平台的使用需求。无论是日常的视频分享还是专业级别的高清制作,该软件都能高效完成,充分满足不同用户的导出需求。 那么,如何在会声会影X9中导出视频呢?以下…

    2025年12月3日 软件教程
    000
  • 电脑cpu是什么意思 cpu性能介绍

    提到电脑,我们常常会听到“cpu”这个词,那么它究竟代表什么呢?cpu,即中央处理器,是计算机的核心部件,负责执行程序指令、处理各类数据运算任务。它不仅直接影响电脑的整体性能,也在很大程度上决定了设备的价格水平。接下来,让我们深入了解一下cpu性能的相关知识吧~ 一、CPU性能的关键指标 判断CPU…

    2025年12月3日 电脑教程
    000
  • 游戏加加如何结束录像?游戏加加结束录像的方法

    游戏加加是一款专为游戏玩家打造的辅助%ign%ignore_a_1%re_a_1%,其结束录像功能支持多种视频格式与分辨率设置,用户可根据实际需求灵活选择输出格式。一旦结束录像,软件将自动停止录制并生成完整的视频文件,无需手动干预,确保画面连贯、内容完整。 使用游戏加加结束录像的具体步骤如下: 1、…

    2025年12月2日 软件教程
    000

发表回复

登录后才能评论
关注微信