美团longcat团队近日正式推出全新视频生成模型longcat-video,致力于通过视频生成技术路径深入探索“世界模型”的构建,为自动驾驶、具身智能等前沿应用场景提供坚实的技术支撑。

该模型基于DiT(Diffusion in Time)架构设计,创新性地以“条件帧数量”作为任务区分标准,原生支持文本生成视频、图像生成视频以及视频续写等多种模态任务,实现从输入到输出的完整闭环。模型可生成分辨率为720p、帧率达30fps的高清视频内容,并具备原生支持长达5分钟的长视频生成能力。通过多重技术创新,有效缓解了时序一致性与物理合理性的常见问题;同时,经过三重推理优化,整体推理效率相较基线提升达10.1倍。

其136亿参数规模的基座模型在文生视频和图生视频任务中表现卓越,达到当前开源领域的SOTA水平,在VBench等多项权威评测中成绩领先。全面评估结果显示,LongCat-Video在通用性能方面表现出色,综合能力位居开源模型前列:
Type Studio
一个视频编辑器,提供自动转录、自动生成字幕、视频翻译等功能
61 查看详情
拥有136亿参数的视频生成基础模型,在文生视频与图生视频两大核心任务上,整体性能均达到现有开源模型中的顶尖水准;在文本-视频对齐、视觉质量、运动连贯性及整体观感四大维度的测试中,于文本匹配度、动态流畅性等关键指标上展现出明显优势;


目前,LongCat-Video模型已全面开源,发布于GitHub、Hugging Face等主流平台,面向全球开发者开放使用。
GitHub:https://www.php.cn/link/8e241a00e2905962b86a2e25a7945c70
Hugging Face:https://www.php.cn/link/1f7c4386bf2c9ff0400445c9e27a1594
Project Page:https://www.php.cn/link/13cd49fe3b1b37f47e6c20a256045cc1
以上就是美团 LongCat 团队发布 LongCat-Video 探索世界模型的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1172914.html
微信扫一扫
支付宝扫一扫