Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

最近,ai 科技评论发现,国产视频生成模型 open-sora 在开源社区悄悄更新了!

现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景,发b站:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

再生成个竖屏,发抖音

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了:

视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

怎么玩?指路GitHub:https://github.com/hpcaitech/Open-Sora

更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例 和 详尽的上手教程。

1、Open-Sora技术报告全面解读

最新功能概览

•支持长视频生成;

•视频生成分辨率最高可达720p;

•单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;

•提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;

•开源了最新的自动数据处理全流程。

时空扩散模型ST-DiT-2

多阶段训练

根据Open-Sora技术报告指出,Open-Sora采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。

统一的图生视频/视频生视频框架

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

支持图像和视频条件化处理的掩码策略

此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

掩码策略配置说明

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。

具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 分桶策略

数据收集和预处理流程

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 数据处理流程

2、Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

Q.AI视频生成工具 Q.AI视频生成工具

支持一分钟生成专业级短视频,多种生成方式,AI视频脚本,在线云编辑,画面自由替换,热门配音媲美真人音色,更多强大功能尽在QAI

Q.AI视频生成工具 73 查看详情 Q.AI视频生成工具

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

除了风景之外,Open-Sora还能还原各种自然生物。无论是红艳艳的小花:

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

还是慢悠悠扭头的变色龙, Open-Sora都能生成较为真实的视频。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

笔者还尝试了多种prompt测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:16*240p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:32*240p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:64*360p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:480*854p

我们还可以喂给Open-Sora一张静态图片让它生成短片

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。

视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

我们也能让Open-Sora 生成高清的图片

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

权重下载地址:https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址:https://github.com/hpcaitech/Open-Sora

参考文献:

[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

[2] Tay, Yi, et al. “Ul2: Unifying language learning paradigms.” arXiv preprint arXiv:2205.05131(2022).

[3] https://openai.com/research/video-generation-models-as-world-simulators

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

以上就是Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/368525.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 06:39:00
下一篇 2025年11月6日 06:43:46

相关推荐

  • COOKIE币创新功能解读_长期增值潜力评估

    COOKIE币凭借MarketingFi创新应用展现生态价值:一、实时数据分析通过区块链确保数据可信,提供流量洞察与异常警报;二、受众画像利用AI整合链上链下行为,实现精准定向投放;三、行为路径追踪记录用户操作流程,识别转化节点与流失环节;四、流量归因模型衡量渠道贡献,优化预算分配;五、转化目标跟踪…

    2025年12月11日
    000
  • Cookie币前景分析_2025-2030年COOKIE价格走势展望

    COOKIE币价格受市场情绪、技术发展和生态应用影响,近期波动明显。当前价格约0.067美元,24小时换手率超74%,流通市值约6710万美元,显示高交易活跃度;其价值支撑于代币经济模型及AI服务落地进展,需警惕团队抛压与市场高波动风险。 COOKIE币价格走势受市场情绪、技术发展和生态应用影响,近…

    2025年12月11日
    000
  • Janction (JCT)币全面解析_JCT未来价格走势分析

    JCT币2025年11月14日价格为0.004265美元,24小时涨12.82%,市值4829万美元;其在11月10日曾达0.01214美元高点后大幅回落,波动剧烈,项目定位AI与区块链结合,但存在流动性风险。 一、检查交易平台行情数据 确认JCT币在主流交易所的实时价格和交易量是分析的基础,这能反…

    2025年12月11日
    000
  • Optimism (OP)币核心技术介绍_2025-2030年价值预测

    答案是Optimism采用Optimistic Rollup技术,通过默认信任与欺诈挑战机制提升以太坊吞吐量,经Bedrock升级后优化性能,并推出OP Stack开源框架支持定制化区块链开发。 一、Optimism核心技术概述 Optimism是基于以太坊的Layer 2扩容解决方案,采用Opti…

    2025年12月11日
    000
  • 什么是“链上指标”?用Glassnode等工具洞察市场情绪

    链上指标通过分析区块链公开数据评估市场行为,Glassnode可查看活跃地址、大额转账等核心数据,识别机构动向与市场趋势。 链上指标是通过分析区块链公开数据来评估市场行为和情绪的工具。 为了方便新手快速上手币圈交易并实时查看市场数据,可通过主流交易所币安(Binance)或欧易OKX注册账户并使用官…

    2025年12月11日
    000
  • Bybit交易所合约操作指南:如何设置追踪止损锁定利润

    Bybit合约交易中设置追踪止损可动态锁定利润。通过APP设置适合移动端用户,步骤包括登录、进入合约界面、选择持仓交易对、启用条件单中的追踪止损并设定回调比例;网页端提供更高级配置,支持设定激活价格与追踪距离,满足复杂策略需求;结合标记价格作为触发基准,能避免插针误触发,提升执行稳定性。 binan…

    2025年12月11日
    000
  • 读懂白皮书并不难,5分钟教你快速筛选优质项目!

    白皮书是评估区块链项目价值的核心依据,需系统分析其结构与内容。1、首先确认项目提出的问题是否真实且有明确用户群体,解决方案是否具备创新性和竞争优势。2、深入考察技术架构,包括是否基于现有公链或自研底层技术,是否有清晰合理的技术路线图和可验证的开源代码、测试网或主网上线记录。3、重点审查代币经济模型,…

    2025年12月11日
    000
  • 币圈套利保姆级教学,每天稳赚1%的秘密都在这!

    掌握币圈套利核心技巧可实现稳定收益:1、跨交易所现货套利通过Binance与Bybit等平台间价差超0.8%时低买高卖,利用API实现毫秒级交易;2、DEX价差套利用闪电贷在Uniswap与PancakeSwap等平台捕捉价格偏离,在单笔交易内完成买卖并偿还贷款,需确保Gas费低于利润30%;3、稳…

    2025年12月11日
    000
  • 分布式存储项目研究_技术特点、市场需求与发展路径

    分布式存储通过多节点网络连接实现数据分散管理,具备高扩展性与可靠性;采用去中心化架构、冗余机制与一致性哈希,保障数据一致性和容错能力;满足金融、互联网、智算中心及安防等领域对高并发、弹性扩容、高带宽与安全性的需求;发展路径聚焦全闪存部署、存算分离、智能分层与安全强化,提升性能与运维效率。 分布式存储…

    2025年12月11日
    000
  • 什么是“同态加密”?区块链隐私技术的未来

    同态加密支持密文计算,实现数据隐私与可用性兼顾:1. 其原理是加密数据运算后解密结果等同明文运算;2. 分为PHE、SHE、FHE三类,分别支持单一、有限及任意计算;3. 在区块链中可用于保护交易金额、构建隐私合约和去中心化数据聚合。 同态加密是一种允许在不解密的情况下对密文进行计算的密码学技术。 …

    2025年12月11日
    000
  • 详解Blast的“原生收益”模型及其争议

    Blast的“原生收益”模型通过将用户存入的ETH质押为stETH、稳定币存入Maker DSR自动获取收益,收益由协议层集成并返还。1、用户通过官方桥接转入资产,智能合约自动转换为stETH或存入DSR;2、依赖Lido与MakerDAO带来系统性风险,若其出现安全或利率问题将直接影响收益;3、初…

    2025年12月11日
    000
  • Curve Finance的工作原理是什么?为何它被称为稳定币兑换之王

    Curve Finance通过StableSwap算法优化稳定币兑换,实现低滑点与高资本效率;算法结合恒定和与乘积模型,在小额交易时保持1:1汇率降低滑点,大额交易时自动调整维持平衡;针对稳定币锚定特性,集中流动性于价格曲线平坦区,显著压缩无常损失,使LP在低风险下持续赚取手续费;并通过CRV与ve…

    2025年12月11日
    000
  • Cookie币staking收益研究_长期持有价值分析

    COOKIE币质押需先确认账户余额并连接兼容链,通过官方页面锁定代币获取基于通胀模型的动态收益,APY随市场波动;高收益率不保证净收益,须结合币价表现计算实际回报,避免因价格下跌导致亏损;不同锁仓周期影响流动性,长期质押收益更高但牺牲资金灵活性,需权衡机会成本;生态发展决定代币价值支撑,应关注项目进…

    2025年12月11日
    000
  • Render Token (RNDR)币应用场景_未来五年价格预测报告

    Render网络通过连接全球GPU资源实现去中心化渲染,支持AI训练、元宇宙开发与影视特效制作,任务由分布式节点并行处理,结果经区块链验证后以RNDR代币结算,已成功应用于《流浪地球》等影片的高精度渲染,大幅提升效率并降低成本。 一、Render网络的去中心化渲染原理 Render网络通过连接全球闲…

    2025年12月11日
    000
  • Optimism的“超级链”(Superchain)愿景是什么?

    Optimism的“超级链”愿景通过模块化与去中心化技术构建统一生态系统。一、实现跨链无缝交互:采用标准化通信协议,部署跨链消息传递桥接合约,支持双向通信;统一地址格式映射规则,避免用户混淆;引入轻客户端验证机制,提升交易确认速度。二、共享排序器网络:多链共用去中心化排序器,节点分布于全球运营商,通…

    2025年12月11日
    000
  • Arbitrum (ARB)币项目深度研究_长期发展路线与价格展望

    Arbitrum(ARB)是以太坊Layer 2扩容方案,基于Optimistic Rollup技术提升效率与安全,采用交互式欺诈证明、Nitro升级及AnyTrust机制优化性能与去中心化;ARB代币用于DAO治理、潜在质押收益及生态燃料支付;通过Orbit框架支持定制化应用链,推动模块化L2生态…

    2025年12月11日
    000
  • COOKIE币流通机制分析_2029-2045年市值预测

    COOKIE币总发行1亿枚,46%流通,56.9%用于生态激励,14.76%用于质押与上市,团队持股9%并设解锁机制,预种子轮占9.35%;市值受技术迭代、生态合作、质押收益、交易活跃度及社区治理影响;历史最高价$0.6697,现价约$0.0047,市场情绪中性偏贪婪,24H换手率0.11%,成交额…

    2025年12月11日
    000
  • 拒绝由于信息差亏钱,这5个币圈必备网站请收藏!

    CoinMarketCap提供全球加密货币数据,支持价格监控与资讯获取;2. CoinGecko强调去中心化与多维评估,助力项目潜力分析;3. TradingView集成实时行情与技术工具,满足专业图表分析需求;4. Dune Analytics通过SQL查询链上数据,实现深度业务洞察;5. Def…

    2025年12月11日
    000
  • 什么是链上随机数?它为何难以生成且至关重要?

    链上随机数是通过去中心化方式生成不可预测数值的机制,用于确保智能合约执行的公平性。由于区块链的确定性特性,直接生成安全随机数困难,主要面临矿工操纵、缺乏熵源及算法可重现等问题。为解决这些挑战,常用方法包括:采用链下预言机如Chainlink VRF提供带加密证明的随机数,利用未来区块哈希作为延迟随机…

    2025年12月11日
    000
  • Janction (JCT)币应用场景_JCT长期价值预测

    Janction(JCT)是融合区块链与AI的去中心化计算平台,1. 构建分布式GPU算力市场,用户注册并连接GPU设备后加入算力池,需求方通过智能合约提交任务,系统分配至vGPU节点处理,完成后按贡献分发JCT代币;2. 支持多方协同训练AI模型,发起方加密发布任务,节点本地计算并提交结果及零知识…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信