当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

你说箱子里要装满钻石,于是箱子被钻石填满,比实拍还要耀眼。这样的技能,哪个剧组不喜欢?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

这是前段时间Adobe旗下的视频剪辑软件Premiere Pro所呈现的“魔法”。该软件通过引入Sora、Runway、Pika等AI视频工具,实现在视频中添加物体、消除物体以及生成视频片段等能力,这被视为视频领域的再一次技术革新。

从 2 月份 Sora 席卷全球到如今 Adobe 再施魔法,海外热火朝天。相比之下,国内在视频领域,尤其是长视频生成方向还处于「等待」状态。在过去的两个月里,我们已经听到了一些宣称追赶 Sora 的声音,但是目前还没有看到国内取得明显进展。但今天生数科技刚刚发布的这支短片,让我们看到了不少惊喜。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

这是生数科技联合清华大学最新发布的视频大模型「Vidu」所官宣的视频。可以看出,它生成的视频不再是持续几秒的「GIF」,而是达到了十几秒(最长可以达到 16 秒左右)。当然更令人惊喜的是,「Vidu」画面效果非常接近 Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都非常出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。在短短两个月的时间,生数科技能实现到这般效果,着实令人惊喜。

国内首个全面对标 Sora 的视频模型

自 Sora 发布之后,“国产 Sora”的争夺战就打响了。但当行业都聚焦于“长”这一特性时,却都忽略了 Sora 的背后其实是综合效果的提升,例如长时间序下的一致性、真实度、美观性等等。

从综合效果看,「Vidu」是首个也是唯一在效果层面全面对标 Sora 的视频模型,不仅仅在国内,在全球范围,也是继 Sora 之后首个完成突破的视频模型。从具体效果,可以显著看到几处明显的优势:

给视频注入「镜头语言」

在视频制作中有一个非常重要的概念——镜头语言。它是通过画面来表达故事情节、揭示角色心理、营造氛围以及引导观众情感的主要方式。不同的镜头选择、角度、运动和组合将极大地影响叙事的效果和观众的感受。

现有 AI 生成的视频,能够明显地感觉到镜头语言的单调,镜头的运动局限于轻微幅度的推、拉、移等简单镜头。其背后的主要原因是,现有的视频内容生成大多是先通过生成单帧画面,再做连续的前后帧预测,但主流的技术路径,很难做到长时序的连贯预测,只能做到小幅的动态预测。

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

                         Runway 在去年 7 月份生成的科幻电影预告片《Trailer: Genesis》(《创世纪》)。

「Vidu」则突破了这些局限。在一个「海边小屋」为主题的片段中,我们可以看到,「Vidu」一次生成的一段片段中涉及多个镜头,画面既有小屋的近景特写,也有望向海面的远眺,整体看下来有种从屋内到走廊再到栏杆边赏景的叙事感。可以看出,「Vidu」能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

提示:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。(生数旗下 PixWeaver 产品官网放出的完整视频片段)

此外,从短片中的多个片段能看到,「Vidu」能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面,给视频注入镜头语言,提升画面的整体叙事感。

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

保持时间和空间的一致性

视频画面的连贯和流畅性至关重要,这背后其实是人物和场景的时空一致性,比如人物在空间中的运动始终保持一致,场景也不能在没有任何转场的情况下突变。而这一点 AI 很难实现,尤其时长一长,AI 生成的视频将出现叙事断裂、视觉不连贯、逻辑错误等问题, 这些问题会严重影响视频的真实感和观赏性。

「Vidu」在一定程度上克服了这些问题。从它生成的一段「带珍珠耳环的猫」的视频中可以看到,随着镜头的移动,作为画面主体的猫在 3D 空间下一直保持着表情、服饰的一致,视频整体上非常连贯、流畅,保持了很好的时间、空间一致性。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

提示:这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的少女》,画面上戴着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光。(生数旗下 PixWeaver 产品官网放出的完整视频片段)

模拟真实物理世界

Sora 令人惊艳的一大特点,就是能够模拟真实物理世界的运动,例如物体的移动和相互作用。其中 Sora 发布过的一个经典案例 ——「一辆老式 SUV 行驶在山坡上」的画面,非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化。在同样的提示词下,「Vidu」与 Sora 生成效果高度接近,灰尘、光影等细节与人类在真实物理世界中的体验非常接近。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在 SUV 上,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。(生数旗下 PixWeaver 产品官网放出的完整视频片段) 当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律                             Sora的生成效果。

当然在「带有黑色车顶行李架」的局部细节上,「Vidu」没能生成出来。但瑕不掩瑜,它的整体效果已高度接近真实世界。

丰富的想象力

与实景拍摄相比,用 AI 生成视频有一个很大的优势 —— 它可以生成现实世界中不存在的画面。以往,这些画面往往要花费很大的人力、物力去搭建或做成特效,但是 AI 短时间就可以自动生成了。

比如在下面这个场景中,「帆船」、「海浪」罕见地出现在了画室里,而且海浪与帆船的交互动态非常自然。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

                            提示:画室里的一艘船驶向镜头。(生数旗下 PixWeaver 产品官网放出的完整视频片段)

模力视频 模力视频

模力视频 – AIGC视频制作平台 | AI剪辑 | 云剪辑 | 海量模板

模力视频 51 查看详情 模力视频

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

短片中的「鱼缸女孩」的片段也是奇幻但又具有一定的合理感。这种能够虚构真实世界不存在的画面的能力,对于创作超现实主义内容非常有帮助,不仅可以激发创作者的灵感,提供新颖的视觉体验,还能拓宽艺术表达的边界,带来更加丰富和多元化的内容形式。

理解中国元素

除了以上四方面的特点外,我们从「Vidu」放出的短片中还看到了一些不一样的惊喜,「Vidu」能够生成特有中国元素的画面,比如熊猫、龙、宫殿场景等。当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

提示:在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合。(生数旗下 PixWeaver 产品官网放出的完整视频片段)

两个月快速突破,背后是怎么做到的?

「Vidu」背后的研发团队生数科技是国内多模态大模型方向的创业团队,核心成员来自清华大学人工智能研究院,团队专注于图像、3D、视频等多模态生成领域。

在今年 1 月份,生数科技在旗下视觉创意设计平台 PixWeaver 就上线了短视频生成功能,支持 4 秒高美学性的短视频内容。2 月份 Sora 推出后,据悉,生数科技内部成立了正式的攻坚小组,加快了原本视频方向的研发进度,3 月份内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。

众所周知,Sora 并没有公布太多的技术细节,能在这么短的时间内取得突破,背后核心是团队深厚的技术积累和诸多从 0 到 1 的原创成果,尤其是在最核心的技术架构层面。

「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

在 DiT 论文发布两个月前,清华大学的朱军团队提交了一篇论文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。这篇论文提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。这是「Vidu」最重要的技术基础。

在技术路线上,「Vidu」采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架构。不同于采用插帧的多步骤处理方式来达到长视频的生成,「Vidu」采用的是和 Sora 一致的路线,即通过单一步骤直接生成高质量的视频。从底层来看,这是一种「一步到位」的实现方法,基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理,文本到视频的转换是直接且连续的。

另外基于 U-ViT 架构,2023 年 3 月,团队在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型 ——UniDiffuser,并将其开源(参见《清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下》)。

UniDiffuser 主要擅长图文任务,能支持图文模态间的任意生成和转换。UniDiffuser 的实现有一项重要的价值 —— 首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将 U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser 比同样 DiT 架构的图文模型 Stable Diffusion 3 的提出领先了一年。

这些在图文任务中积累的工程经验为视频模型的研发打下了基础。因为视频本质上是图像的流,相当于是图像在时间轴上做了一个扩增。因此,在图文任务上取得的成果往往能够在视频任务中得到复用。Sora 就是这么做的:它采用了 DALL・E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。这种效应也必然会发生在「Vidu」上面。

根据此前的消息推测,「Vidu」也复用了生数科技在图文任务的很多经验,包括训练加速、并行化训练、低显存训练等等,从而快速跑通了训练流程。据悉,他们通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。

从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。官方也透露,「Vidu」目前还在加速迭代提升。面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。

来自清华系的精干团队

最后,再聊下「Vidu」背后的团队 —— 生数科技,这是一支清华背景的精干团队。

生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。

团队从事生成式人工智能和贝叶斯机器学习的研究已有 20 余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

团队于 ICML、NeurIPS、ICLR 等人工智能顶会发表多模态领域相关论文近 30 篇,其中提出的免训练推理算法 Analytic-DPM、DPM-Solver 等突破性成果,获得 ICLR 杰出论文奖,并被 OpenAI、苹果、Stability.ai 等国外前沿机构采用,应用于 DALL・E 2、Stable Diffusion 等明星项目中。

自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。此次「Vidu」的推出,是生数科技在多模态原生大模型领域的再一次创新和领先。

相关阅读:

《专访生数科技唐家渝:拿到上亿融资,Transformer 来做多模态大模型》

《国内公司有望做出 Sora 吗?这支清华系大模型团队给出了希望》

以上就是当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/421073.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 09:20:31
下一篇 2025年11月7日 09:21:20

相关推荐

  • 如何使用 HTML <video> 标签播放 YouTube 视频

    标签播放 youtube 视频” /> 本文介绍了如何通过下载 YouTube 视频并使用 HTML “ 标签在网页中播放,从而解决在移动设备上使用 iframe 嵌入 YouTube 视频时自动播放受限的问题。通过将 YouTube 视频转换为 `.mp4` 文件并托管在自己的…

    2025年12月23日
    000
  • HTML如何给登录页加水印_HTML给登录页加水印的实现技巧

    给HTML登录页添加水印可通过CSS背景或Canvas实现。CSS方案利用background-image设置固定、重复的半透明水印图片,适用于静态版权标识;Canvas方案通过JavaScript动态绘制文字或图案水印于全屏canvas上,支持时间戳等动态信息,灵活性更高。两者均需注意不影响用户交…

    2025年12月22日
    000
  • audio标签支持哪些音频格式

    答案:为确保网页音频兼容性,应提供MP3、Ogg Vorbis和AAC等多种格式,利用标签让浏览器自动选择,同时考虑文件大小、音质、专利许可及编码效率,以提升加载速度与用户体验。 Web 标签在不同浏览器中支持的音频格式有所差异,但最核心且广泛支持的包括 MP3、WAV 和 Ogg Vorbis。此…

    2025年12月22日
    000
  • 使用 CSS 实现响应式文本与图像布局

    本文旨在解决使用 CSS 创建响应式布局时,文本和图像在不同屏幕尺寸下自适应的问题。我们将探讨如何利用 Flexbox 布局模型,结合媒体查询,实现左右两栏结构在桌面端平分屏幕,在移动端垂直排列,并保证图片在各种屏幕尺寸下都能保持良好的比例和显示效果。本文将提供代码示例,并解释关键 CSS 属性的用…

    2025年12月22日
    000
  • track标签的作用?视频字幕怎么添加?

    track标签用于为html5的和元素添加文本轨道,最常见的应用是视频字幕,通过结合webvtt格式的字幕文件实现;2. 使用时需在标签内嵌套标签,设置kind(如subtitles、captions等)、src(指向.vtt文件)、srclang(字幕语言)、label(用户可见名称)和defau…

    2025年12月22日 好文分享
    100
  • HTML页面加载慢怎么优化?常见技巧

    通过代码压缩(minification)去除html、css、js中的空格、注释和冗余字符,减小文件体积;2. 使用关键css(critical css)内联首屏样式,异步加载非关键css,避免渲染阻塞;3. 合理使用async和defer属性加载javascript,防止阻塞html解析;4. 优…

    2025年12月22日
    000
  • HTML性能优化怎么做?提升加载速度的8个核心技巧

    html性能优化的核心在于减少资源体积、优化加载顺序及提升渲染效率,具体措施包括:1.精简代码,通过webpack等工具压缩html、css和javascript;2.优化图片资源,使用webp格式及响应式图片;3.利用浏览器缓存,合理设置cache-control和expires;4.异步加载cs…

    2025年12月22日
    000
  • HTML5的WebAssembly是什么?如何提升性能?

    webassembly性能优势体现在执行速度、可预测性、内存管理、文件体积和代码复用。首先,wasm是预编译的二进制格式,支持jit/aot编译,执行更接近原生代码;其次,其静态类型和严格内存模型使性能更稳定;再者,wasm允许直接访问线性内存,提升内存控制效率;此外,wasm文件体积更小,加快加载…

    2025年12月22日 好文分享
    000
  • html如何制作时间轴 时间轴布局设计教程

    制作时间轴的关键在于使用html结构搭建基础框架,css进行样式美化与布局,并可结合javascript实现交互效果。1. html部分:通过创建包含时间点和内容的多个timeline-item节点包裹在timeline容器中构建结构;2. css部分:利用相对定位与绝对定位配合伪元素::befor…

    2025年12月22日 好文分享
    000
  • html中audio标签什么意思_audio标签的使用方法详解

    要在html中使用标签,需通过结合标签嵌套实现,并提供多种格式以确保兼容性。常用属性包括controls、autoplay、loop、muted和preload。1. 使用指定多个音频格式;2. 添加controls属性启用默认控件;3. 通过javascript控制播放行为,如play()、pau…

    2025年12月22日 好文分享
    200
  • 网站加载速度慢,document content download 是罪魁祸首?

    提升网站访问速度的奥秘:内容下载时间过长背后的原因 当用户访问网站时,不可避免地需要下载网站的内容,其中document的content Download时间过长,会严重影响网站的访问速度。那么,究竟是什么因素导致了这种问题呢? 内容下载时间的影响因素 1. 资源大小 网站中的图片、视频、代码等资源…

    2025年12月22日
    000
  • html文件怎么转换成mp4

    将 HTML 文件转换为 MP4:使用屏幕录像软件录制 HTML 页面。导出视频为 MP4 格式。转换音频为 MP3(可选)。使用视频编辑软件编辑视频(可选)。最终导出为 MP4 格式。 如何将 HTML 文件转换为 MP4 步骤 1:使用屏幕录像软件 使用屏幕录像软件(如 OBS Studio 或…

    好文分享 2025年12月22日
    000
  • 轻松掌握 HTML 文件 ZIP 压缩秘诀

    html 文件 zip 压缩可以通过 python 的 zipfile 模块实现:创建 zip 文件对象。向 zip 文件添加 html 文件。关闭 zip 文件对象。 轻松掌握 HTML 文件 ZIP 压缩秘诀 ZIP 压缩是一种广泛使用的数据压缩技术,可以将一系列文件打包成一个单独的文件,从而缩…

    2025年12月22日
    000
  • 网站优化的关键要素

    随着互联网的迅猛发展,各类网站的数量不断增加,用户对网站性能的要求也越来越高。一个高效稳定的网站不仅可以提供良好的用户体验,同时也能增加用户的粘性和转化率。因此,网站性能优化成为了每个网站开发者必须关注的重要问题。 那么,网站性能优化必须注意的要点有哪些呢? 首先,压缩和优化页面资源是提高网站性能的…

    2025年12月22日
    000
  • 通过技术优化提升网站性能的方法

    如何通过优化技术提升网站性能 随着互联网的快速发展,网站已成为企业展示形象、推广产品和服务的重要平台。然而,随着用户对网站性能的要求越来越高,网站的性能成为了一个至关重要的因素。一个高性能的网站能够提供更好的用户体验,吸引更多的访问者,并且有助于提升搜索引擎的排名。本文将介绍一些通过优化技术来提升网…

    2025年12月22日
    000
  • 网站性能优化的关键技巧

    随着互联网的快速发展,网站的性能优化变得越来越重要。一个高性能的网站能够吸引更多的访问者,并提供更好的用户体验。本文将介绍一些关键的网站性能优化技巧,帮助网站管理员提升网站的性能。 一、压缩和缩小文件大小 文件的大小对网站的加载速度有很大的影响。可以使用压缩技术来减小文件的大小,如使用Gzip压缩H…

    2025年12月22日
    000
  • 揭秘前端性能优化模式:提高网站速度的关键

    前端性能优化模式大揭秘:提升网站速度的秘诀 摘要:本文将揭示一些提升网站速度的前端性能优化模式,包括优化代码结构、减少HTTP请求、使用CDN、压缩资源、使用缓存和懒加载等。这些技术将帮助网站提升用户体验,提高加载速度。 一、优化代码结构在进行前端性能优化时,优化代码结构是非常重要的一步。代码结构过…

    2025年12月21日
    000
  • 提升网站性能的有效方法与策略

    优化网站性能的实用方法与策略 随着互联网的快速发展和普及,网站已经成为人们获取信息、进行交流和进行商业活动的重要平台。然而,用户对网站的使用体验要求越来越高,对网站的加载速度和响应速度也提出了更高的要求。因此,优化网站性能成为了网站开发和运营过程中非常重要的一项工作。本文将介绍一些优化网站性能的实用…

    2025年12月21日
    000
  • 解析网站性能优化的关键要素

    随着互联网技术的快速发展,网站已经成为了企业与用户之间沟通和交互的重要平台。然而,随着用户对网站性能要求的提高,网站性能优化越来越成为一个关键的问题。本文将分析网站性能优化的关键点,为网站管理员提供一些有用的指导。 首先,优化服务器响应时间是网站性能优化的一个重要方面。服务器响应时间指的是从用户发送…

    2025年12月21日
    000
  • 揭秘前端优化绝招:让网站飞快加载!

    前端优化大揭秘:让网站速度飞起来! 在如今的互联网时代,网站已经成为人们获取信息和进行交流的重要渠道。然而,随着互联网的普及和发展,用户对网站速度的要求也越来越高。一旦网站加载过慢,用户很可能选择离开,甚至转向竞争对手的网站。因此,网站的速度优化变得至关重要。本文将揭秘前端优化的技巧和方法,帮助你让…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信