Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

刚刚,meta 抢在 openai 之前推出自己的 sora ——meta movie gen

Sora 有的它都有,可创建不同宽高比的高清长视频,支持 1080p、16 秒、每秒 16 帧。

Sora 没有的它还有,能生成配套的背景音乐和音效、根据文本指令编辑视频,以及根据用户上传的图像生成个性化视频。

Meta 表示,这是 ” 迄今为止最先进的媒体基础模型(Media Foundation Models)”。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

只需一句 ” 把灯笼变成飞向空中的泡泡 “,就能替换视频中的物体,同时透明的泡泡正确反射了背景环境。

上传一张自己的照片,就能成为 AI 电影的主角。

生成的视频不再无声,也不只是能安一个背景音乐。

比如看这里!视频会配合滑板轮子转动和落地配上逼真音效。(注意打开声音)

有人表示,随着大量创作者学会使用 AI 视频编辑工具,很难想象几年后长视频和短视频会变成什么样。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

这一次,与 Sora 只有演示和官网博客不同,Meta 在92 页的论文中把架构、训练细节都公开了。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

不过模型本身还没开源,遭到抱抱脸工程师贴脸开大,直接在评论区扔下 Meta 的开源主页链接:

在这等着您嗷。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

Meta 在论文中特别强调,数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型至关重要。通过系统地提升这几个维度,才使得如此强大的媒体生成系统成为可能。

其中最另业界关注的一点是,这一次他们完全扔掉了扩散模型和扩散损失函数,使用 Transformer 做骨干网络,流匹配(Flow Matching)做训练目标。

用 Llama3 架构做视频模型

具体来说 Movie Gen 由视频生成和音频生成两个模型组成。

Movie Gen Video:30B 参数 Transformer 模型,可以从单个文本提示生成 16 秒、16 帧每秒的高清视频,相当于 73K 个视频 tokens。

对于精确视频编辑,它可以执行添加、删除或替换元素,或背景替换、样式更改等全局修改。

对于个性化视频,它在保持角色身份一致性和运动自然性方面取得 SOTA 性能。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

Movie Gen Audio:13B 参数 Transformer 模型,可以接受视频输入以及可选的文本提示,生成与视频同步的高保真音频。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

Movie Gen Video 通过预训练 – 微调范式完成,在骨干网络架构上,它沿用了 Transoformer,特别是 Llama3 的许多设计。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

预训练阶段

在海量的视频 – 文本和图像 – 文本数据集上进行联合训练,学习对视觉世界的理解。这个阶段的训练数据规模达到了 O ( 100 ) M 视频和 O ( 1 ) B 图像,用以学习运动、场景、物理、几何、音频等概念。

微调阶段

研究人员精心挑选了一小部分高质量视频进行有监督微调,以进一步提升生成视频的运动流畅度和美学品质。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

为了进一步提高效果,模型还引入了流匹配(Flow Matching)作为训练目标,这使得视频生成的效果在精度和细节表现上优于扩散模型。

扩散模型通过从数据分布逐渐加入噪声,然后在推理时通过逆过程去除噪声来生成样本,用大量的迭代步数逐步逼近目标分布。

流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。

与扩散模型相比,流匹配方法训练更加高效,计算成本更低,并且生成的结果在时间维度上具有更好的连续性和一致性。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

在整体架构上,首先通过时空自编码器(Temporal AutoEncoder, TAE)将像素空间的 RGB 图像和视频压缩到一个时空潜空间,学习一种更加紧凑的表征。

接着,输入的文本提示被一系列预训练的文本编码器编码成向量表示,作为模型的条件信息。这里用到了多种互补的文本编码器,包括理解语义的编码器如 UL2、与视觉对齐的编码器如 Long-prompt MetaCLIP,以及理解视觉文本的字符级编码器如 ByT5。

最后,生成模型以 Flow Matching 的目标函数进行训练,从高斯分布采样的噪声向量作为输入,结合文本条件,生成一个输出潜码。这个潜码经过 TAE 解码,就得到最终的图像或视频输出。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

此外 Movie Gen Video 在技术上还引入了多项创新:

为了让模型同时适配图像和视频,设计了一套因子化的可学习位置编码(factorized learnable positional embedding)机制。对高度、宽度、时间三个维度分别编码,再相加。这样即适配了不同宽高比,又能支持任意长度的视频。

针对推理效率问题,它采用了线性 – 二次时间步长调度(linear-quadratic t-schedule)策略。仅用 50 步就能逼近 1000 步采样的效果,大幅提升了推理速度。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

为了进一步提高生成效率,Movie Gen Video 模型还采用了基于时间平铺(temporal tiling)的推理方法。应对生成高分辨率长视频时,直接对整个视频进行编码和解码可能会遇到的内存限制问题。

在时间平铺推理中,输入视频在时间维度上被分割成多个片段,每个片段独立进行编码和解码,然后在输出时将所有片段重新拼接在一起。这种方法不仅降低了对内存的需求,还提高了推理的效率。

此外,在解码阶段使用了重叠和混合的方式来消除片段边界处的伪影问题,即通过在片段之间引入重叠区域,并对重叠区域进行加权平均,确保生成的视频在时间维度上保持平滑和一致。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

另外 Meta 还开源了多个基准测试数据集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,为后续研究者提供了权威的评测工具,有利于加速整个领域的进步。

这篇长达 92 页的论文还介绍了更多在架构、训练方法、数据管理、评估、并行训练和推理优化、以及音频模型的更多信息。

感兴趣的可到文末链接查看。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

One More Thing

AI 视频生成这块,这两天热闹不断。

就在 Meta 发布 Movie Gen 之前不久,OpenAI Sora 主创之一Tim Brooks跳槽谷歌 DeepMind,继续视频生成和世界模拟器方面的工作。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

这让很多人想到,就像当年谷歌迟迟不推出大模型应用,Transformer 8 个作者纷纷出走。

现在 OpenAI 迟迟发布不了 Sora,主要作者也跑了。

不过另外也有人认为,Tim Brooks 选择现在离开,或许说明他在 OpenAI 的主要工作完成了,也让人开始猜测:

Meta 的发布会迫使 OpenAI 放出 Sora 来回应吗?

(截至目前为止,Sora 的另一位主创 Bill Peebles 还未发声。)

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

现在 Meta 放出了带有视频编辑功能的模型,再加上 10 月 1 日 Pika 1.5 更新,主打给视频中物体加上融化、膨胀、挤压等物理特效。

不难看出,AI 视频生成下半场,要开始卷向 AI 视频编辑了。

Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开

论文地址:

https://ai.meta.com/static-resource/movie-gen-research-paper

参考链接:

[ 1 ] https://ai.meta.com/research/movie-gen/

[ 2 ] https://x.com/AIatMeta/status/1842188252541043075

以上就是Meta 版 Sora 无预警来袭!抛弃扩散模型,音视频生成 / 画面编辑全包,92 页论文无保留公开的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/46807.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
如何将 XSS 过滤后的转义字符还原?
上一篇 2025年11月7日 20:27:39
win10如何连接蓝牙耳机_win10蓝牙设备配对步骤
下一篇 2025年11月7日 20:27:40

相关推荐

  • 怎样操作meta标签中的viewport来控制设备屏幕的css属性

    这次给大家带来怎样操作meta标签中的viewport来控制设备屏幕的css属性,利用meta标签中的viewport来控制设备屏幕的css属性的注意事项有哪些,下面就是实战案例,一起来看一下。 width-viewport的宽度 height-viewport的高度 initial-scale 初…

    用户投稿 2026年5月10日
    100
  • 探索嵌入式系统测试中的测试自动化

    在当今快节奏的世界中,嵌入式系统在从汽车和航空航天到医疗设备和消费电子产品的各个行业中变得越来越普遍。这些系统由协同工作的硬件和软件组件组成,在确保设备和机器的正常运行方面发挥着至关重要的作用。随着嵌入式系统的复杂性不断增加,对高效、可靠的测试方法的需求也在不断增加。这就是测试自动化发挥作用的地方。…

    2026年5月10日
    000
  • 如何在 Android 上运行 Go 代码

    本文将介绍如何在 Android 设备上运行 Go 语言编写的程序。通过交叉编译,我们可以将 Go 代码编译为 ARM 架构的可执行文件,从而使其能够在 Android 系统上运行。本文将提供详细步骤和示例,帮助你轻松地在 Android 设备上部署和执行 Go 程序。 交叉编译 Go 代码到 AR…

    2026年5月10日
    000
  • Python中高效模拟无重叠球体随机运动:利用cKDTree和Numba提升性能

    本文探讨了在Python中高效模拟大量无重叠球体随机运动的方法。针对原始实现中因逐个球体碰撞检测导致的性能瓶颈,我们引入了多项优化策略。通过利用scipy.spatial.cKDTree的批量查询和多核并行能力,并结合Numba进行关键计算的热点加速,实现了显著的性能提升,有效解决了大规模球体运动模…

    2026年5月10日
    000
  • HTML行高间距怎么设置_文本可访问性排版指南

    行高应设为字体大小的1.5至2倍以提升可读性,推荐使用无单位数值(如line-height: 1.5)以实现响应式自适应,避免固定像素值导致的可访问性问题。该设置结合合适的字体大小、对比度、字间距和文本对齐方式,能显著改善各类用户的阅读体验,尤其利于阅读障碍者。在响应式设计中,配合rem、em等相对…

    2026年5月10日
    000
  • Flask后端无响应:真机调试请求失败的原因是什么?

    flask收不到请求,无响应和报错 在使用flask作为后端,使用微信小程序进行真机调试时,遇到了问题:发送请求时,flask对应的函数没有执行,也没有发送响应或错误信息。 分析 通过对比模拟器和真机调试的情况,发现问题可能与请求ip地址有关。模拟器请求时的ip地址为本地ip,而真机调试时的ip地址…

    2026年5月10日
    000
  • 用html创建canvas画布生成图片

    本篇文章主要介绍如何用html创建canvas画布生成图片,感兴趣的朋友参考下,希望对大家有所帮助。 1,在html里新建canvas画布 /**要生成图片的html*/ 思路惊奇 思路惊奇 @@##@@ @@##@@/*生成的canvas和最终生成的图片*/ @@##@@ //设置canva画布大…

    用户投稿 2026年5月10日
    000
  • 构建模拟:从头开始的实时交易模拟器

    简介 嘿,开发社区!我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器,旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上,没有外部库或框架。从头开始构…

    2025年12月24日
    600
  • HTML、CSS 和 JavaScript 项目

    欢迎来到我的 html、css 和 javascript 项目集合!这篇博文全面概述了我创建的各种项目,展示了 web 开发的不同方面。每个项目都可以在自己的存储库中找到,其中包含您需要探索和学习的所有代码。 目录 简介项目概况开始使用贡献作者 介绍 作为一名 web 开发人员,我喜欢从事各种项目,…

    2025年12月24日
    300
  • 浏览 CSS 响应式设计

    前端开发人员的一项主要职责是创建响应式设计布局。这也是他们的挑战之一。 您可能和我一样相信,在使用 html/css 和 javascript 进行项目时“是时候开始构建响应式设计了”,或者您可能会发现很难让您的设计响应式。 无论什么情况,让我们开始学习如何导航 css 响应式设计,sailor。 …

    2025年12月24日
    500
  • 如何克服响应式布局的不足之处

    如何克服响应式布局的不足之处 随着移动设备的普及和互联网的发展,响应式布局成为了现代网页设计中必不可少的一部分。通过响应式设计,网页可以根据用户所使用的设备自动调整布局,使用户在不同的屏幕尺寸下都能获得良好的浏览体验。 然而,尽管响应式布局在提供多屏幕适应性方面做得相当出色,但仍然存在一些不足之处。…

    2025年12月24日
    500
  • 响应式布局优化移动设备适配的策略与实用技巧

    响应式布局在移动设备上的适配策略与最佳实践 随着移动设备的普及和使用频率的增加,响应式布局逐渐成为网页设计的主流趋势。在移动设备上实现良好的用户体验,需要采用适配策略和最佳实践来确保网页能够在不同尺寸的屏幕上自适应地显示。 一、视口设置为了适应不同尺寸的移动设备屏幕,需要正确设置视口。在网页的头部添…

    2025年12月24日
    000
  • 掌握响应式布局网站的关键要点

    了解响应式布局网站的必备知识 随着移动设备的普及和使用率的增加,人们越来越多地使用手机和平板电脑来浏览网页。为了让网站在不同尺寸的屏幕上都能够有良好的显示效果,响应式布局逐渐成为了现代网页设计的一种重要趋势。本文将介绍响应式布局网站的必备知识,帮助读者更好地了解和运用响应式布局。 一、响应式布局的定…

    2025年12月24日
    1200
  • CSS的伪类内容生成

    这次给大家带来css的伪类内容生成,css的伪类内容生成的注意事项有哪些,下面就是实战案例,一起来看一下。 1、 通过 css 向已有的元素上增加新的文本(图片)内容选择器:    1、:before     向匹配元素之前增加生成的内容     定位到匹配元素开始的位置    2、:after  …

    用户投稿 2025年12月24日
    100
  • 怎么保证html在平板上运行_保障平板运行html的方法【技巧】

    首先需设置视口元标签,,确保页面正确缩放;接着使用媒体查询和弹性布局适配768px至1024px屏幕,如@media (min-width: 768px) and (max-width: 1024px) { .container { width: 90%; margin: 0 auto; } img…

    2025年12月23日
    000
  • studio怎么运行html_studio运行html步骤【指南】

    在Android Studio中运行HTML文件需将其放入assets目录,并通过WebView加载。首先创建assets文件夹并放入HTML文件,然后在布局中添加WebView组件,接着在Activity中启用JavaScript并使用loadUrl加载本地HTML文件,若HTML涉及网络请求还需…

    2025年12月23日
    000
  • 在React Native WebView中保持键盘开启状态的策略

    本文探讨了在react native的webview组件中,当输入框失去焦点时如何避免虚拟键盘自动关闭的问题。核心解决方案在于优化html中的事件处理逻辑,通过使用`onchange`事件而非`oninput`,并直接调用目标输入框的`focus()`方法,确保焦点无缝转移,从而维持键盘的持续显示,…

    2025年12月23日
    000
  • React Native WebView中输入框焦点切换时保持键盘可见的实现

    本文探讨在react native webview中,当输入框失去焦点时键盘自动关闭的问题。通过将输入框的事件从`oninput`改为`onchange`,并结合`document.getelementbyid(‘target’).focus()`方法,可以在输入框之间平滑切…

    2025年12月23日
    000
  • 构建响应式网站:利用CSS Grid与媒体查询优化移动端布局

    本文旨在解决网站在移动设备上显示不佳的问题,特别是当固定尺寸布局和简单的width: 100%无法奏效时。我们将深入探讨如何利用css grid创建灵活的二维布局,并结合媒体查询(media queries)为不同屏幕尺寸定制样式,从而实现真正适应多设备的响应式设计。 响应式设计的挑战与误区 当开发…

    2025年12月23日
    000
  • 构建响应式搜索栏:使用Flexbox与媒体查询优化移动体验

    本文将详细介绍如何利用css flexbox布局和媒体查询技术,构建一个在不同设备上都能良好展示的响应式搜索栏。通过优化布局和调整元素尺寸,确保搜索按钮在移动端不会出现错位或下沉,提升用户体验。 在现代网页设计中,响应式布局是不可或缺的一环,它确保了网站在桌面、平板和手机等不同尺寸屏幕上都能提供一致…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信