蚂蚁百灵大模型团队宣布正式开源 ring-flash-2.0,这是一款基于 ling-flash-2.0-base 深度优化的高效思考模型。与 ling-flash-2.0 一致,ring-flash-2.0 拥有总计 100b 参数,但在每次推理过程中仅激活 6.1b 参数,显著提升计算效率。
Ring-flash-2.0 架构图如下:

据团队介绍,该模型在数学竞赛、代码生成、复杂逻辑推理等多项高难度基准测试中表现卓越,性能不仅超越了参数量在 40B 以内的主流 dense 模型,还能与更大规模的开源 MoE 模型及闭源高性能思考模型 API 相匹敌。


百灵大模型
蚂蚁集团自研的多模态AI大模型系列
177 查看详情
为了进一步增强 Ring-flash-2.0 的综合能力,蚂蚁百灵团队构建了 Two-staged RL 训练流程:

第一阶段采用轻量级 Long-CoT SFT,使 Ling-flash-2.0-base 掌握多样化的思维链模式;第二阶段引入具备可验证奖励机制的 RLVR 训练,持续挖掘模型深层推理潜力;最后结合 RLHF 阶段,优化模型的通用性与用户对齐能力。
此次开源内容包括 Ring-flash-2.0 的完整模型权重、RL 训练方法以及数据构建方案:
https://www.php.cn/link/c74305e736bb51926e0f568d7ae72545
https://www.php.cn/link/4504a21322621ea6e8b2af2f6564e81a
以上就是蚂蚁百灵大模型团队开源高性能思考模型 Ring-flash-2.0的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/208693.html
微信扫一扫
支付宝扫一扫