
Omni-Infer v0.4.2 正式上线,带来面向超大规模 MoE 模型的高效推理加速方案
本次版本主要更新亮点如下:
核心功能升级
新增对 DeepSeek-v3.2-EXP with DSA 的全面支持推出 Omni Proxy,实现高性能的 Prefill 与 Decode 分离调度(PD分离)引入 KV offload 技术,结合主机内存扩展的 KVM 机制,使 MLA 场景下的 KV blocks 容量提升超过百倍,显著增强长上下文及多轮对话处理能力
已支持模型清单
支持DeepSeek-v3.2-Exp A3 BF16 PD分离 支持DeepSeek-v3.2-Exp A3 W8A8C16 PD分离 支持DeepSeek-v3.2-Exp A3 Prefill W4A8C16,Decode W8A8C16 PD分离
性能实测数据
64K-1K 2 32 3.37 32K-1K 6 34 1.70 16K-1K 8 34 0.97
128K-1K 2 32 7.834 64K-1K 4 30 3.736 32K-1K 6 28 1.88 16K-1K 8 27 0.979
64K-1K 4 31 6.10 32K-1K 8 29 3.05 16K-1K 8 30 1.51
可下载安装包信息
A3 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni_infer-a3-arm:release_v0.4.2 omni_infer-a3-arm:v0.4.2
模型权重获取方式
提供以下量化版本权重下载:DeepSeek-V3.2-Exp-BF16
DeepSeek-V3.2-Exp-INT8
DeepSeek-V3.2-Exp-INT4
提取码:omniinfer
v0.dev
Vercel推出的AI生成式UI工具,通过文本描述生成UI组件代码
261 查看详情
部署与配置说明
Deepseek-v3.2-Exp 安装部署操作手册 Deepseek-v3.2-Exp 权重量化使用指南
性能压测脚本资源
包含完整测试流程的性能评估脚本:
Deepseek-v3.2-Exp 性能测试脚本
更多详情请访问:https://www.php.cn/link/37107d39373c202221d6672722f514cf
源码下载地址:点击获取
以上就是Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/745594.html
微信扫一扫
支付宝扫一扫