谷歌发布“Vlogger”模型:单张图片生成10秒视频

谷歌发布了一个新的视频框架:

只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频

视频时长可变,目前看到的示例最高为10s。

可以看到,无论是口型还是面部表情,它都非常自然。

如果输入图像囊括整个上半身,它也能配合丰富的手势

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌发布“Vlogger”模型:单张图片生成10秒视频

网友看完就表示:

有了它,以后咱开线上视频会议再也不需要整理好发型、穿好衣服再去了。

嗯,拍一张肖像,录好演讲音频就可以(手动狗头)

谷歌发布“Vlogger”模型:单张图片生成10秒视频

用声音控制肖像生成视频

这个框架名叫VLOGGER

它主要基于扩散模型,并包含两部分:

一个是随机的人体到3D运动(human-to-3d-motion)扩散模型。

另一个是用于增强文本到图像模型的新扩散架构。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

其中,前者负责将音频波形作为输入,生成人物的身体控制动作,包括眼神、表情和手势、身体整体姿势等等。

后者则是一个时间维度的图像到图像模型,用于扩展大型图像扩散模型,使用刚刚预测的动作来生成相应的帧。

为了使结果符合特定的人物形象,VLOGGER还将参数图像的pose图作为输入。

VLOGGER的训练是在一个超大的数据集(名叫MENTOR)上完成的。

有多大?全长2200小时,共包含80万个人物视频

其中,测试集的视频时长也有120小时长,共计4000个人物。

谷歌介绍,VLOGGER最突出的表现是具备多样性:

如下图所示,最后的像素图颜色越深(红)的部分,代表动作越丰富。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

而和业内此前的同类方法相比,VLOGGER最大的优势则体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪,并且生成的视频很完整(既包括面部和唇部,也包括肢体动作)等等。

腾讯混元文生视频 腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

腾讯混元文生视频 137 查看详情 腾讯混元文生视频

谷歌发布“Vlogger”模型:单张图片生成10秒视频

具体来看,如下表所示:

Face Reenactment方法无法用音频和文本来控制此类视频生成。

Audio-to-motion倒是可以音频生成,方式也是将音频编码为3D人脸动作,不过它生成的效果不够逼真。

Lip sync可以处理不同主题的视频,但只能模拟嘴部动作。

对比起来,后面的两种方法SadTaker和Styletalk表现最接近谷歌VLOGGER,但也败在了不能进行身体控制上,并且也不能进一步编辑视频。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

说到视频编辑,如下图所示,VLOGGER模型的应用之一就是这个,它可以一键让人物闭嘴、闭眼、只闭左眼或者全程睁眼:

谷歌发布“Vlogger”模型:单张图片生成10秒视频

另一个应用则是视频翻译:

例如将原视频的英语讲话改成口型一致的西班牙语。

网友吐槽

最后,“老规矩”,谷歌没有发布模型,现在能看的只有更多效果还有论文。

嗯,吐槽也是不少的:

画质模型、口型抽风对不上、看起来还是很机器人等等。

因此,有人毫不犹豫打上差评:

这就是谷歌的水准吗?

谷歌发布“Vlogger”模型:单张图片生成10秒视频

有点对不起“VLOGGER”这个名字了。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

——和OpenAI的Sora对比,网友的说法确实也不是没有道理。。

大家觉得呢?

更多效果:https://enriccorona.github.io/vlogger/

完整论文:https://enriccorona.github.io/vlogger/paper.pdf

以上就是谷歌发布“Vlogger”模型:单张图片生成10秒视频的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/424736.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:00:17
下一篇 2025年11月7日 11:03:19

相关推荐

  • html5使用video与canvas实现视频截图 html5使用多媒体融合的技巧

    首先通过结合HTML5的video与canvas元素实现视频截图,具体步骤包括嵌入视频和canvas标签,利用JavaScript将当前视频帧绘制到canvas并导出图像数据;接着通过预加载元数据、调整输出质量、使用离屏canvas及支持摄像头流等优化技巧提升性能;该技术广泛应用于视频会议拍照、在线…

    2025年12月23日
    000
  • track标签的作用?视频字幕怎么添加?

    track标签用于为html5的和元素添加文本轨道,最常见的应用是视频字幕,通过结合webvtt格式的字幕文件实现;2. 使用时需在标签内嵌套标签,设置kind(如subtitles、captions等)、src(指向.vtt文件)、srclang(字幕语言)、label(用户可见名称)和defau…

    2025年12月22日 好文分享
    100
  • HTML5视频怎么添加?video标签支持哪些格式?

    html5视频在某些浏览器无法播放的主要原因是视频格式和编码不兼容。1. 首先需提供多种格式,如mp4(h.264编码)、webm(vp8/vp9编码)和ogg(theora编码),以覆盖不同浏览器的支持范围;2. 确保视频文件内部编码正确,即使文件后缀为.mp4,也必须使用h.264视频和aac音…

    2025年12月22日
    000
  • html文件怎么转换成mp4

    将 HTML 文件转换为 MP4:使用屏幕录像软件录制 HTML 页面。导出视频为 MP4 格式。转换音频为 MP3(可选)。使用视频编辑软件编辑视频(可选)。最终导出为 MP4 格式。 如何将 HTML 文件转换为 MP4 步骤 1:使用屏幕录像软件 使用屏幕录像软件(如 OBS Studio 或…

    好文分享 2025年12月22日
    000
  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • WebAssembly与JavaScript_javascript性能提升

    WebAssembly通过二进制格式和接近原生的执行速度提升JavaScript性能。1. 代码体积小、解析快,适合高负载场景;2. 支持C/C++、Rust等语言编译,增强计算能力;3. 与JavaScript互操作,关键路径用Wasm,其余用JS处理。适用于图像视频编辑、游戏引擎、数据处理等场景…

    2025年12月21日
    000
  • JavaScript中的WebAssembly简介与使用_javascript WebAssembly

    WebAssembly是一种可在现代浏览器中运行的低级字节码,设计用于高性能应用,作为JavaScript的补充而非替代。它是一种二进制指令格式,具有紧凑体积和高效执行能力,支持C/C++、Rust等语言编译为.wasm文件,在接近原生速度下运行。主流浏览器均已支持,通过JavaScript加载和实…

    2025年12月21日
    000
  • 什么是 Web Assembly 的 JavaScript Promise 集成,它如何提升异步性能?

    WebAssembly通过与JavaScript集成实现异步优化:将计算密集型任务封装在Promise中运行于Web Worker,利用其接近原生的执行速度和非阻塞设计,提升异步性能;典型应用包括音视频处理、文件加密和游戏引擎,通过合理分工——重计算交Wasm、控制流留JavaScript——显著改…

    2025年12月20日
    000
  • JavaScript中的Web Assembly(WASM)带来了哪些性能突破?

    WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力,显著提升Web性能;它与JavaScript互补,使浏览器能运行AutoCAD、Figma等重型应用,并支持4K视频处理、大模型训练等复杂任务,推动Web向桌面级体验演进。 WebAssembly(WASM)为JavaScript生态带来…

    2025年12月20日
    000
  • 如何用WebCodecs实现浏览器端的视频转码器?

    WebCodecs通过硬件加速实现浏览器端高效视频转码,核心步骤为解析容器、解码、处理、编码和封装,利用VideoDecoder与VideoEncoder API完成帧级操作,结合OffscreenCanvas等技术可实现格式转换与分辨率调整,同时需注意内存管理、兼容性及性能优化,提升实时性与用户体…

    2025年12月20日
    000
  • 如何用WebCodecs实现浏览器端的视频编辑工具?

    WebCodecs通过提供底层音视频编解码接口,使浏览器端实现高性能视频编辑成为可能。它支持帧级操作、硬件加速、与Canvas/WebGL/Web Audio等技术融合,将计算下放到客户端,降低服务器负载。典型流程包括:文件导入后解码为VideoFrame和AudioData,进行剪辑、合成、特效处…

    2025年12月20日
    300
  • WebRTC屏幕录制:精确同步鼠标轨迹与视频帧的策略

    本文旨在解决WebRTC屏幕录制中,如何将鼠标位置与视频帧精确同步的问题。由于API限制,无法直接获取与每帧对应的鼠标事件。教程将详细介绍一种基于时间戳的同步策略,通过requestAnimationFrame周期性记录鼠标坐标及其相对时间戳,实现鼠标轨迹数据与视频流的有效关联,为后续视频编辑提供精…

    2025年12月20日
    000
  • WebRTC屏幕录制中鼠标轨迹与视频帧同步的最佳实践

    本文探讨了在WebRTC屏幕录制过程中,如何精确同步鼠标移动轨迹与视频帧的挑战与解决方案。鉴于无法直接获取视频帧事件,我们提出了一种基于时间戳的同步策略,通过在录制开始时启动计时器,并结合requestAnimationFrame捕获鼠标位置及其相对时间戳,实现鼠标数据与视频流的有效解耦与后端重构,…

    2025年12月20日
    000
  • JS如何处理音频和视频

    JavaScript控制音视频播放与交互的核心方法包括:1. 使用HTML5音视频元素的play()、pause()等方法控制播放;2. 通过currentTime、volume、playbackRate等属性实现播放时间、音量、倍速控制;3. 监听play、pause、ended、error等事件…

    2025年12月20日
    000
  • js怎么实现屏幕录制

    屏幕录制可通过mediarecorder和getdisplaymedia api实现;2. 麦克风权限应先请求屏幕共享,再单独请求音频以避免多次弹窗;3. 优化文件大小可降低分辨率、帧率,选择vp9编码或限制时长;4. 添加水印可用canvas api绘制并捕获流,或录制后用ffmpeg.js处理;…

    2025年12月20日 好文分享
    000
  • JS如何实现Diff算法

    javascript中的diff算法通过比较新旧虚拟dom树,找出最小差异并更新真实dom。1. 只进行同层节点比较,不跨层级对比;2. 节点类型不同时直接替换;3. 类型相同时比较属性,增删或更新不一致的属性;4. 子节点比较中,无key时按顺序对比,有key时通过key识别同一节点,实现复用与移…

    2025年12月20日
    000
  • Canvas的基本用法是什么

    canvas的性能优化策略包括:1. 使用requestanimationframe控制重绘频率,避免不必要的刷新;2. 采用离屏canvas或脏矩形技术,只重绘变化区域;3. 减少像素操作,通过imagedata对象批量处理像素数据;4. 缓存静态内容,避免重复绘制;5. 优先使用高效的api如d…

    2025年12月20日
    000
  • 如何用BOM获取用户的硬件并发数?

    navigator.hardwareconcurrency 属性可获取用户设备的逻辑处理器核心数,用于优化并行计算任务。通过该属性可动态分配web worker数量,提升图片处理、数据排序等复杂任务的性能;但其值仅为参考,受系统负载、隐私策略及浏览器兼容性影响,不能完全依赖。 通过BOM(Brows…

    2025年12月20日 好文分享
    000
  • js如何实现图片镜像翻转 4种镜像处理方式玩转图像变换

    在js中实现图片镜像翻转主要通过canvas和css两种方式,具体步骤如下:1. 使用canvas时,水平翻转需调用ctx.scale(-1, 1)并平移原点至右侧;2. 垂直翻转使用ctx.scale(1, -1)并平移原点至下方;3. 同时水平与垂直翻转则设置ctx.scale(-1, -1)并…

    2025年12月20日 好文分享
    000
  • 如何在 Mac 上退出全屏:分步指南

    高效地浏览 Mac 可以显着提高您的工作效率。 Mac 用户最常见的疑问之一是了解如何退出全屏模式。无论您是在观看电影、处理文档还是探索应用程序,了解如何在全屏和常规视图之间切换都可以让您的 Mac 体验更加流畅。 本指南将引导您了解在 mac 上退出全屏的不同方法,解释全屏模式为何有用,并提供有效…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信