再谈复现 Sora:被仰望与被遗忘的

2月16日,OpenAI 发布了视频生成领域的重磅模型 —— Sora。

Sora 对 Scaling Law 的信仰及其突破性的技术创新,使它持续保持领先地位。同时,也再次证明了“大力出奇迹”依然适用于文生视频领域。
Sora 披露的技术细节,远远不足以窥其全貌。同时 Sora 目前也未正式对外开放。源于此,针对 Sora 的思考和讨论从未停止过。再谈复现 Sora:被仰望与被遗忘的

                              openai 发布的技术报告

Sora 给整个 AI 领域带来的最大冲击,莫过于如何优化和校正现有的视频生成思路和框架。而由此也引发了持续至今的复现 Sora 的热潮。
复现 Sora 的动力,一方面来自技术人员的技术执着与技术理想,另一方面也来自于未来可预期的商业价值。
另外,不容忽视的是,这家持续被戏称为 CloseAI 的人工智能技术研究机构,已然成为了行业内的标杆,几乎每次发布的产品都能带来颠覆式的创新。但是 OpenAI 似乎在坚持闭源的道路上越走越远,这更加点燃了大众对复现 Sora 的激情。我们可以相信未来的几个月内,多个类 Sora 模型将会陆续发布,并将开源出来。
Sora 发布后的这一个多月来,其相关技术创新的讨论和复现的进度如何呢?下面我们一起来看看。
关于复现 Sora,本文从以下三方面展开:
距离 Sora 发布一个多月了,目前复现的进度如何?
复现的可能性有多大?国内有什么技术基础?
Sora 到底是不是世界模型?能否帮助我们抵达 AGI?有没有必要复现?

类 Sora 模型

目前已经推出且讨论较多的三个模型分别是 Snap Video、Open-Sora 1.0,以及 Mora。

Snap Video
再谈复现 Sora:被仰望与被遗忘的
Snap Video 是2月29日发布的类 Sora 模型,它使用到了可扩展的时空 Transformer,来自开发出 SnapChat 图片分享软件的 Snap 公司,以及特伦托大学等机构。
传送门:《首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
Open-Sora 1.0再谈复现 Sora:被仰望与被遗忘的
Open-Sora 1.0 是3月18日全面开源的首个类 Sora 模型,来自 Colossal-AI 团队,该开源模型涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。
传送门:《没等来OpenAI,等来了Open-Sora全面开源》

Mora再谈复现 Sora:被仰望与被遗忘的

Mora 是几天前由理海大学、微软研究院的研究者提出的多智能体框架,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。
传送门:《复刻Sora的通用视频生成能力,开源多智能体框架Mora来了》
尽管目前的模型复现效果依然无法企及 Sora,但是短短一月有余,已经有明显的技术突破出现,不失为一个乐观的信号。据不完全统计,国内已有近 10 支团队在复现 Sora,让我们拭目以待。

先于 DiT 的技术架构创新

Sora 使用的 DiT(Diffusion Transformer) 架构目前来看是其最大的技术创新,但追溯来看,也许国内相关的进度更早一些。

U-ViT 架构

再谈复现 Sora:被仰望与被遗忘的                               U-ViT 架构
2022年9月,清华团队提交的名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,比 DiT 还要早 2 个月。该论文提出用基于 Transformer 的网络架构 U-ViT 替代基于 CNN 的 U-Net,这与 Sora 将 Transfomer 和扩散模型融合的思路不谋而合。
传送门:《国内公司有望做出Sora吗?这支清华系大模型团队给出了希望》

VDT

再谈复现 Sora:被仰望与被遗忘的
2023年5月在 arXiv 网站上公开的 Video Diffusion Transformer (VDT),是由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行合作的,基于 Transformer 的 Video 统一生成框架。对采用 Transformer 架构的原因也给出了详细的解释。
传送门:《国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收》
也许在核心技术的创新上,国内的探索并不落后,而是走在了前面。不过,囿于资源限制以及技术路线规划等其他原因,没能在之前实现类似 Sora 的效果。
Sora 无疑验证出了一条技术可行性的道路,而我们本身在技术架构上的领先探索,将更有利于我们复现出 Sora,甚至可以更加乐观地相信,在某些领域内超越 Sora 的效果。

Sora 是世界模型吗?

由 Sora 引发的另一个热点讨论,是关于世界模型的。
再谈复现 Sora:被仰望与被遗忘的
Sora 生成的视频无疑对物理世界有了一定了解,比如经典的“海盗船在咖啡杯里纠缠”,肉眼可见能涉及到专业的流体动力学、光线等物理世界的特征。
但是以 Yann LeCun 为代表的一部分科学家力证 Sora 的训练方式和世界模型没有关系。
那 Sora 是不是世界模型,到底懂不懂物理世界?关于这个讨论已经蔓延至各个论坛和直播中。可见对于究竟什么是世界模型这个话题,大家也是见仁见智的。
而我们能明确的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我们预计的还要早到达。那复现 Sora 就有了一定的必要性。
关于 Sora,我们保持着好奇,并持续探求以下问题的可能答案。

Sora 之前的视频生成架构/技术还能不能用?如何用?

Sora 之后,谁是被遗忘的?谁又是被仰望的?

Sora 之外,其他创业公司/团队要如何做?做什么?

Sora 会改变主流的技术架构吗?以 DiT 为代表的架构是以后主流的架构选择吗?

国内技术力量应不应该复现 Sora?为什么?

已知有近 10 支团队在复现 Sora,我们可能看到的未来格局是什么?

为什么是 OpenAI? OpenAI 的模式能否复刻?

Sora 之后,全球的视频生成格局是怎样的?又将如何发展和变化?

如何看待一些明星创业公司公开表示不做 Sora?

Sora Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

Sora 87 查看详情 Sora

多模态大模型的未来在哪里?

不同视角下,如何看待 Sora 的冲击?(投资人、非技术人、央国企、AI 创业者、从业者等视角)

OpenAI 扮演着什么样的社会角色?你如何看待这家公司?

……

Sora 带来的冲击是颠覆式的,因此对以上问题的求解将持续进行着。而作为聚焦于 AI 前沿技术探索和应用实践的团队,本站 AI 技术论坛再次将视线放在了视频生成领域。
再谈复现 Sora:被仰望与被遗忘的
4月13日,在北京六道口,我们策划了一期技术论坛,聚焦 Sora 发布后的技术创新、思考与应用实践。活动现场汇聚多位重磅嘉宾,同时我们也会更加深入地探讨上面提到的问题。
在可预见的未来,相信本次活动能产生一定的积极作用和启发,以期推动我国 AI 开源社区的技术发展和传播。

嘉宾阵容

本次论坛的嘉宾阵容强大,我们邀请到了:
业内的知名技术专家张俊林老师,来一场 Sora 核心技术的深度拆解
爆火的视频生成模型 PixelDance 的作者,来自字节跳动的曾妍老师,分享 PixelDance 背后的技术创新和应用
类 Sora 模型 VDT 的团队负责人,来自中国人民大学孵化的创业公司——智子引擎的 CEO 高一钊博士,详细拆解 VDT 的技术创新和实践
投资人是 AI 领域离不开的重要角色,陈石老师作为峰瑞资本的投资合伙人,将带来投资人/机构视角下的独特观察
国央企在 Sora 发布后迅速响应,占据了 AI 领域一席之地,来自中移动信息技术有限公司的算法技术负责人童同老师,将会分享他的全新思考
类 Sora 模型 Open-Sora 1.0 的技术负责人,来自潞晨科技的 CTO 卞正达老师,更是会详细拆解如何复现 Sora,以及来自他们团队的独特思考与实践
还有更多重磅嘉宾,陆续邀请中……
再谈复现 Sora:被仰望与被遗忘的

张俊林

中国中文信息学会理事,中科院软件所博士

目前担任新浪微博新技术研发负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》作者。
再谈复现 Sora:被仰望与被遗忘的

曾妍

ByteDance Research 算法工程师

专注于视频生成和多模态预训练等领域的前沿研究。主导研发的模型为字节跳动的视频生成、短视频审核、电商客服、今日头条、教育解题等业务提供了有力服务,并以第一作者身份将相关的八篇论文发表在 TPAMI, ICML, CVPR, ACL 等国际顶级会议和期刊,同时也担任了 TPAMI, ICML, NIPS, ICLR 等会议的审稿人。主导研发的 PixelDance 视频生成基础模型在业界首次实现了高动态性和稳定性的结合,并首次生成了3分钟的连续剧情动画。
再谈复现 Sora:被仰望与被遗忘的

峰瑞资本 投资合伙人

专注于科技、软件、互联网、消费等领域的投资。加入峰瑞资本前,拥有 5 年阿里巴巴管理层经历,曾担任阿里巴巴移动事业群副总裁、阿里巴巴文化娱乐集团高管、优酷和 UC 国际班委,深度参与 UC、高德、优酷、土豆、神马搜索、UC 国际等产品线的业务决策和管理执行。
15+ 年连续创业,作为核心管理团队成员深度参与 UC(全球最大第三方手机浏览器,2014 年被阿里巴巴收购)和拉卡拉(中国知名第三方支付公司,SZ:300773)的创业过程,分别担任副总裁和 CTO;曾经是一名快乐的程序员,用户增长专家,科技热爱者。
拥有北京航空航天大学机电工程系本科和硕士学历。2023 年获评 EqualOcean「2023年出海全球化投资TOP30人」、甲子光年「2022-2023 年度人工智能与大数据最佳投资人TOP20」。
再谈复现 Sora:被仰望与被遗忘的

高一钊

智子引擎 CEO

中国人民大学高瓴人工智能学院博士。多模态大模型专家,发表多篇顶级期刊、会议论文,曾带领多人团队完成文澜大模型训练。全程参与智子引擎相关模型、产品的开发与推广。
再谈复现 Sora:被仰望与被遗忘的

卞正达

潞晨科技 CTO

毕业于新加坡国立大学,曾在全球超算最顶尖会议 SC 上发表一作论文,拥有 7 年高性能 AI 系统经验,Colossal-AI 系统核心开发者。
再谈复现 Sora:被仰望与被遗忘的

童同

中移动信息技术有限公司 算法技术负责人

中国科学院自动化研究所 AI 博士。目前在中移动信息技术有限公司负责多模态大模型、数字人、智能体等领域研发工作,实现了文生图、文生视频、大模型动作识别与目标检测等关键技术的落地应用。共发表论文 12 篇、公司专利 12 项、软著 4 项。
更多专家正在确认中,敬请期待。

视频生成技术与应用 – Sora 时代

本站 AI 技术论坛时刻保持对 AI 领域技术突破的敏感追踪,为了深入探究 Sora 对技术的冲击和对各行各业带来的影响,我们特别策划了「视频生成技术与应用 — Sora 时代」AI 技术论坛。
希望助力广大企业和从业者紧跟技术发展潮流,全面了解 Sora、视频生成技术、多模态大模型等前沿领域的技术突破和应用实践。
面对扑面而来的 AI 视频生成,积极拥抱学习并敢于尝试,才能抓住技术潮流,破局而生。
期待 2024.04.13,在北京海淀区,和你相遇。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

再谈复现 Sora:被仰望与被遗忘的

论坛报名通道正式开启,扫描海报中二维码可直达活动页面。由于嘉宾介绍发布时间较晚,本场论坛的早鸟优惠期有所延长。
即日起至04月07日23:55,购票参会即可直减 200 元, 享受 699 元早鸟特惠门票(原价 899 元)。五人团购更有专属优惠,详见活动详情页。
本站 AI 技术论坛往期的参会者,请单独添加 Alice 微信,直达专属优惠链接。

活动亮点

赠送永久观看上一期「视频生成前沿研究与应用」论坛活动视频及课件(上期活动已购请联系 Alice 扣减,本期购买后记得找 Alice 兑换上一期视频)
永久观看本期「视频生成技术与应用 – Sora 时代」论坛活动会后视频及课件
汇聚高校教授及产业界重磅技术专家,掌握最新技术,拓宽技术视野
和技术大牛面对面交流,会后深度连接
覆盖核心技术拆解、明星产品最佳实践、技术未来探讨及展望
全流程助力学习:会前会后学习资料大礼包
加入视频生成高质量技术交流社群,及时跟进行业前沿技术与资讯
本站旗下相关付费活动享购票八五折优惠

技术交流社群

为了方便技术交流,我们也特意建立了视频生成技术交流群,欢迎关心 Sora、视频生成和多模态大模型的技术从业者扫码加入对话,深入交流技术细节和行业观察。
再谈复现 Sora:被仰望与被遗忘的
关于本次活动商务合作、团购、发票、内容等相关问题,欢迎添加本场活动负责人 Alice 或通过邮件进行咨询。
微信:15650753618
邮箱:jiayaning@jiqizhixin.com
关于发票:报名成功后,可于活动结束后,在活动行 App 上自行申请发票,发票为电子版增值税普票,开票成功后会发送到报名邮箱中。
成为论坛志愿者:参与活动现场的具体事项执行,如签到、引导、秩序管理等,包工作餐。在校学生优先。有意者请联系 Alice。

以上就是再谈复现 Sora:被仰望与被遗忘的的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/618566.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
苹果手机怎么把照片导入新手机
上一篇 2025年11月11日 05:21:39
App系统开发:app系统开发什么价格?
下一篇 2025年11月11日 05:22:02

相关推荐

  • 实时音频转音素实现2D角色唇语同步教程

    本文详细介绍了如何将实时麦克风音频转换为音素,以实现2D角色唇语同步。核心方法是分两步走:首先利用语音转文本(STT)服务(如Python SpeechRecognition库)将实时音频转换为单词,然后使用CMU Dict库将这些单词映射为对应的音素。文章还将探讨如何进一步将CMU音素转换为国际音…

    2026年5月10日
    000
  • ChromaDB向量嵌入的有效持久化策略

    本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能,高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘,可以有效避免重复计算,显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。 在处理大规模文本数据并生…

    2026年5月10日
    000
  • 什么是Worldcoin (WLD)?是AI革命还是隐私噩梦?WLD未来前景深度剖析

    Worldcoin的核心是通过Orb虹膜扫描实现人格证明,构建全球身份与金融网络。用户验证后获World ID并领取WLD代币,旨在推动Web3发展及未来全民基本收入。其机遇在于可能成为数字身份标准,但面临虹膜数据隐私、中心化控制、监管限制和伦理争议等挑战,发展前景取决于技术与伦理的平衡。 Worl…

    2026年5月10日
    000
  • 从OpenAI API响应中高效提取文本内容

    本文详细指导如何从openai gpt系列模型的api json响应中准确提取所需的文本内容。我们将重点介绍如何利用json解析器处理api返回的结构化数据,避免直接字符串操作的常见错误,并通过具体代码示例演示如何访问choices数组中的生成文本,并探讨处理多条生成结果的方法,确保开发者能高效、稳…

    2025年12月23日
    000
  • 从OpenAI API响应中高效提取生成文本

    本文旨在指导开发者如何正确解析OpenAI API返回的JSON格式响应,并从中提取所需的生成文本内容。通过详细的步骤和代码示例,我们将展示如何使用`JSON.parse()`方法处理API响应,并精确访问`choices[0].text`属性以获取核心文本输出,同时探讨处理多条生成结果的方法及相关…

    2025年12月23日
    000
  • 解决OpenAI微调模型”模型不存在”错误:API端点选择指南

    当使用openai微调模型时,若遇到“the model `xxxxx` does not exist”错误,通常是由于选择了错误的api端点。本文将详细阐述如何根据微调模型的类型(gpt-3.5 turbo或旧版gpt-3模型如babbage/davinci)正确选择chat completion…

    2025年12月20日
    000
  • 解决OpenAI微调模型“模型不存在”错误的指南

    在使用openai微调模型时,若遇到“the model `xxxxx` does not exist”错误,通常是由于api端点选择不当。本教程将详细阐述如何根据微调模型的基础类型(gpt-3或gpt-3.5 turbo)选择正确的api端点(completions api或chat comple…

    2025年12月20日
    000
  • OpenAI微调模型调用错误:“模型不存在”的解决方案与API选择指南

    当您在使用%ignore_a_1%微调模型时遇到“the model `xxxxx` does not exist”错误,这通常是由于选择了错误的api端点。解决此问题的关键在于识别您的微调模型所基于的原始模型类型:若基于gpt-3.5 turbo,应使用chat completions api;若…

    2025年12月20日
    200
  • LangChain HNSWLib 向量存储机制详解:内存与本地持久化

    本文深入探讨LangChain中HNSWLib向量存储的内部机制。HNSWLib作为内存型向量存储,其数据实际存储在项目运行的宿主服务器内存中,而非LangChain官方服务器。同时,它支持将向量数据持久化到本地文件系统,确保数据的安全与可恢复性。 在构建基于大型语言模型(LLM)的应用时,向量存储…

    2025年12月20日
    000
  • LangChain HNSWLib 向量存储机制与数据安全深度解析

    hnswlib作为langchain的内存型向量存储,其数据实际存储在运行项目的服务器内存中,而非langchain官方服务器。这意味着数据安全性与您的部署环境直接相关。通过持久化操作,hnswlib数据可保存为本地文件,确保数据可控性。理解hnswlib的存储原理对于数据安全至关重要,它强调了用户…

    2025年12月20日
    000
  • LangChain中HNSWLib向量存储机制解析与数据持久化

    本文深入探讨了langchain中hnswlib向量存储的内部机制,重点阐明其“内存存储”的实际含义——数据存储于项目运行的宿主服务器内存中,而非langchain的服务器。文章将详细介绍hnswlib数据的持久化方法,并通过示例代码指导用户如何安全地管理和保存向量数据,确保数据安全与应用稳定性。 …

    2025年12月20日
    000
  • LangChain HNSWLib 向量存储机制与数据持久化指南

    本文详细解析langchain中hnswlib向量存储的工作原理,明确其作为内存存储的特性,指出数据实际存储在项目部署的服务器上,而非langchain官方服务器。同时,文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件,确保数据安全与可靠性,并探讨在实际应用中的注意事…

    2025年12月20日
    000
  • 理解LangChain向量存储:HNSWLib的本地数据持久化机制

    本文深入探讨langchain中hnswlib向量存储的内部机制与数据安全考量。我们将澄清“in-memory”存储的含义,解释hnswlib数据如何存储于项目宿主服务器的内存中,而非langchain官方服务器。同时,文章将演示如何通过持久化操作将这些内存数据保存至本地文件系统,确保数据可控性和安…

    2025年12月20日
    000
  • Discord.js V14机器人DM消息处理指南:解决私信不响应问题

    本文旨在解决discord.js v14机器人无法检测和响应私信(dm)的常见问题。核心在于,未缓存的dm频道需要通过在客户端配置中添加partials.channel来显式处理。文章将详细阐述dm消息处理机制,提供正确的意图(intents)和部分(partials)配置示例,并包含一个完整的dm…

    2025年12月20日
    000
  • 解决Discord.js V14机器人无法检测私聊消息的问题

    在discord.js v14中,机器人无法检测私聊(dm)消息是一个常见问题,即使启用了`directmessages`意图。本文将深入探讨此问题的原因,并提供一个完整的解决方案。核心在于理解并正确配置`partials.channel`和`partials.message`,以确保机器人能够处理…

    2025年12月20日
    300
  • Discord.js V14:解决机器人无法在私信中检测消息的问题

    本文旨在解决Discord.js V14版本中,机器人无法正确检测并响应私信消息的问题。通过配置必要的 Gateway Intent Bits 和 Partials,确保机器人能够缓存并处理私信频道和消息,从而实现私信交互功能。本文提供详细的配置步骤和代码示例,帮助开发者快速解决此问题。 在使用 D…

    2025年12月20日
    000
  • Discord.js机器人私信交互:确保DM消息正常处理

    Discord.js v14机器人未能正确处理私信(DM)消息,即使已配置相关意图。核心问题在于DM频道可能未被缓存,导致机器人无法接收到这些消息。本文将详细讲解如何通过在Discord客户端配置中添加`Partials.Channel`来解决此问题,确保机器人能够可靠地监听并响应用户在私信中的交互…

    2025年12月20日
    000
  • 解决 ChatGPT 扩展选择器失效问题:一个实战教程

    本文旨在帮助开发者解决 ChatGPT 网页更新导致扩展选择器失效的问题。通过分析问题原因,提供利用开发者工具查找新选择器的方法,并展示了使用 getElementsByClassName() 替代 querySelector() 的解决方案,以确保扩展功能在 ChatGPT 最新版本中正常运行。 …

    2025年12月20日
    000
  • 应对ChatGPT界面更新:浏览器扩展选择器失效的定位与修复

    本文针对ChatGPT界面更新导致浏览器扩展选择器失效的问题,提供了一套定位与修复策略。核心在于利用浏览器开发者工具识别新的DOM结构和类名,并建议从不稳定的querySelector转向更适合动态UI的getElementsByClassName等方法,以确保扩展的稳定运行。 在开发浏览器扩展时,…

    2025年12月20日
    000
  • Pinecone中获取命名空间下所有向量的实用教程

    本文旨在解决Pinecone用户如何获取特定命名空间下所有向量的难题。鉴于Pinecone的fetch方法依赖于向量ID,而直接获取所有ID并非易事。教程将详细介绍一种通过巧妙利用query方法,将topK参数设置为足够大的值,并结合describeIndexStats来统计向量数量的策略,从而高效…

    2025年12月20日
    000

发表回复

登录后才能评论
关注微信