蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王

ai 能不能真正“动脑子”?这个问题有了新答案。

蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。

它通过强化学习与多阶段推理机制的结合,使模型能够在反馈中不断修正思路、优化逻辑路径,逐步形成更稳定、更接近人类思维的推理模式。

正是这种从“模仿”到“思考”的转变,让 Ring-1T 成为开源 AI 领域的一次里程碑式突破。接下来,让我们看看这项研究是如何实现的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

论文地址:https://arxiv.org/pdf/2510.18855

通用智能的火花

实验中 Ring-1T 模型在多个高难度推理与数学基准上进行了系统性评估,都取得了突破性的实验成果。作为一个开源的万亿参数思考型模型,Ring-1T 分别在推理、数学、编程及通用智能任务上均展现出卓越的综合能力。

在数学推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成绩,接近人类顶尖选手水平;在 HMMT-2025 中得分 86.72,显示其在跨领域数学推理与高复杂度逻辑演算中的强大能力;在 IMO-2025 模拟评测中达到银牌水平,证明模型能够在需要多步推理与创造性证明的问题中保持高准确率和稳定性。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

在编程与算法能力上,模型在 Codeforces 平台测试中获得 2088 分,达到人类程序员的高水平区间。这表明 Ring-1T 不仅能够理解算法逻辑,还能在有限时间内生成高效、可执行的代码,具备良好的算法复杂度控制与问题分解能力。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

在通用智能推理任务中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,显著超越此前开源模型的平均表现。该结果表明,模型在抽象模式识别、思维迁移与多步认知推理方面具备接近通用人工智能的潜力。

总体而言,Ring-1T 在各项基准测试中表现出优异的稳定性与一致性,尤其在复杂推理与多步逻辑任务中未出现显著性能退化。与此前主要停留在百亿或千亿参数规模的开源模型相比,Ring-1T 在数学、推理与算法任务上全面刷新了开源模型的性能上限,成为新一代开源思考型模型的性能基准。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

实验结果还表明,该模型的高性能得益于论文提出的三项关键技术:

IcePop 旨在提升强化学习训练的稳定性,解决训练与推理分布不一致的问题。它通过动态约束与梯度剪切,限制高熵样本的影响,并自适应调整温度参数,使模型在保持探索性的同时更稳定收敛,从而提高推理阶段的可靠性。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

C3PO++ 专注于提升长序列推理和大规模 rollout 的效率。该方法采用动态分区和 token 预算机制,将推理过程划分为多个小批次,并利用持久化缓冲区续传未完成任务,有效提升 GPU 利用率和整体训练吞吐量。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

而 ASystem 则是支撑万亿参数强化学习的分布式架构。它整合统一的训练与推理运行时、高效的显存管理、快速的参数同步以及安全的隔离执行环境,使大规模模型训练具备更高的并行性、稳定性与容错性。

算法与系统的共振

论文中体现的实验过程,主要以 Ring-1T 思考型模型 为研究对象,研究人员设计了分阶段的训练体系,包括 监督微调(SFT)、推理强化学习(Reasoning RL) 和 通用强化学习(General RL)。研究的主要突破集中在后两个阶段,通过引入 IcePop、C3PO++ 与 ASystem 等方法,实现了在大规模强化学习中的稳定训练与高效推理。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

实验中,Ring-1T 模型的训练过程经过精心设计,以在万亿参数规模下同时保证稳定性和效率。团队在训练时采用 AdamW 优化器,其超参数设定为 β₁=0.9、β₂=0.999,权重衰减为 0.01;同时固定了 MoE路由器的偏置项,以保持参数更新的稳定。推理与采样阶段的设置在两个强化学习阶段中保持一致,KL 系数设为 0.0,采样温度为 1.0,以减少训练阶段与推理阶段分布不一致带来的偏差。

在强化学习阶段,Ring-1T 的性能提升主要依赖两项关键技术:IcePop 和 C3PO++。其中,IcePop 的目标是让训练过程更加稳定,避免模型在训练和推理阶段出现表现不一致的情况。

Cutout.Pro Cutout.Pro

AI驱动的视觉设计平台

Cutout.Pro 331 查看详情 Cutout.Pro

简单来说,它会在每次更新模型参数时,对不稳定或异常的样本进行“筛选”和“削弱”。具体做法是:计算训练阶段与推理阶段之间的概率差异,如果某个 token 的概率偏离太大,就会被部分“掩盖”或降低权重。这样可以防止模型在训练中因为极端样本而产生剧烈波动。

除此之外,IcePop 采用了参数 α=0.5、β=5.0 的范围,也就是只让概率比值处于 [0.5, 5.0] 的样本参与优化。研究人员还测试了不同范围的配置(如 [0.5, 2.0]、[0.4, 5.0]),结果表明默认参数在训练稳定性与性能之间达到了平衡。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

而之后的 C3PO++ 则负责优化 rollout 过程,使训练在大规模分布式环境下更加高效,特别是在处理超长序列时。传统方法在遇到很长的推理样本时会拖慢整个训练进程,而 C3PO++ 通过“分段训练”和“并行续传”的方式解决了这个问题。

它设置了一个 token 预算(Φ),当生成的 token 数达到预算上限时,就会立即触发一次更新。系统分为两个池子:推理池(P_infer) 不断生成新样本,训练池(Q_train) 收集已经生成完成的样本并进行更新,这样推理和训练就可以同时进行。

为了防止某些特别长的序列占用资源,C3PO++ 还给每个样本设定了一个 保留期(σ),超时未完成的样本会被清除。而那些还没生成完的样本则会在下一轮继续生成(即“跨迭代续传”)。通过这些机制,C3PO++ 能让训练过程更加流畅高效,不会因为个别长样本卡住整个系统。

总体来说,IcePop 让训练更稳,C3PO++ 让训练更快,两者结合,使 Ring-1T 能在万亿参数规模下保持高效、稳定的强化学习表现。

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

除此之外,为了让万亿参数的 Ring-1T 模型能够高效稳定地进行训练,研究团队还专门设计了一个分布式强化学习系统—— ASystem。它的核心目标是:在海量 GPU 和超大模型的条件下,让训练、推理和参数更新能够同时、高效地进行,而不会因为系统瓶颈导致中断或效率下降。

ASystem 采用一种叫 SingleController + SPMD 的并行架构。简单来说,就是用一个中央控制器来统一调度成千上万的计算节点,让每个节点都执行相同的训练流程,从而保证全系统的同步与高效协作。

整个系统由四个主要模块组成:

Hybrid Runtime:这是训练和推理的统一执行环境,负责同时管理模型训练和模型测试的计算任务,避免不同系统之间反复传输数据。

AMem:负责 GPU 显存的管理和数据传输。它可以在不同显卡之间切换内存、使用多条数据通道传输信息,并通过共享内存池减少显存占用,从而支持更大的批量训练而不会崩溃。

AState:负责在不同计算节点之间同步模型参数。它采用点对点(P2P)的高效传输方式,只同步必要的部分,能在大约 10 秒内完成万亿级参数的同步。

ASandbox:相当于一个安全的“实验沙盒”,用于执行代码生成、数学计算和逻辑验证等推理任务。它像“函数即服务”一样,可以在隔离环境中同时运行成千上万个推理请求。

在系统设计上,ASystem 将控制逻辑和数据流分离,使训练、推理和奖励计算模块都能独立运行。它还具有“快速失败与自动恢复”机制:如果某个节点出现问题,系统能自动检测并恢复运行,而不会影响整体训练进度。

通过这些设计,ASystem 让 Ring-1T 能够在成千 GPU 的大规模环境中稳定运行,实现高吞吐、高可靠的强化学习训练。PHP中文网

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王 - 创想鸟

开源智能的下一步

过去的模型大多依赖数据去模仿人类答案,但面对复杂推理或逻辑问题时容易出错。Ring-1T 的研究探索了一种新的思路 —— 通过强化学习让模型在反馈中不断调整自己的思考方式,逐步形成更稳定、更清晰的推理能力。

它的另一个意义在于证明了超大规模强化学习是可以实现的。以前这种规模的模型常常训练不稳、成本高、容易崩溃,而这项研究用新的算法和系统设计,找到了一种让万亿参数模型稳定训练的方法。这为后续更复杂、更自主的模型研究提供了可操作的经验。

从更长远的角度看,这项工作也让开源模型有机会在高层次智能上追上闭源系统。它或许不只是一次技术升级,而是让智能研究变得更开放、更有延续性的一步。

以上就是蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1173337.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月6日 19:45:12
下一篇 2025年12月6日 19:45:33

相关推荐

  • 爱应用pc版官方网址入口地址 爱应用pc版平台主页直达官方链接

    爱应用pc版官方网址是http://www.xapcn.com/aiyingyong/,该平台提供WP7/WP8手机助手功能,支持软件游戏免费安装、资源管理及跨设备文件传输等服务。 爱应用pc版官方网址入口地址在哪里?这是不少网友都关注的,接下来由PHP小编为大家带来爱应用pc版平台主页直达官方链接…

    2025年12月6日 软件教程
    000
  • 有人做了个RTX 5090公版PCB杯垫!还原度100%

    10月27日消息,大千世界,无奇不有。 3D打印社区Printables内有网友做了一个特殊的饮料杯垫,模仿了RTX 5090 FE公版卡的PCB电路板造型,还原度可以说是达到了100%。 RTX 5090公版PCB其实分为三部分,PCIe接口和输出接口都在单独的子卡上,因此主卡做得非常紧凑、迷你,…

    2025年12月6日 行业动态
    000
  • 百度网盘网页版官网主页 百度网盘网页版登录链接

    百度网盘网页版官网主页是https://pan.baidu.com,提供文件上传、多端同步、智能识别与跨设备管理功能。 百度网盘网页版官网主页在哪里?这是不少网友都关注的,接下来由PHP小编为大家带来百度网盘网页版登录链接,感兴趣的网友一起随小编来瞧瞧吧! https://pan.baidu.com…

    2025年12月6日 软件教程
    000
  • OMEN 暗影精灵 11 学生用游戏本全系选购指南

    对于当代学生而言,拥有一台性能出色、价格适中的高性价比游戏本,几乎已经成为校园生活的“标配装备”。omen 暗影精灵 11 系列凭借强大的性能释放、优秀的屏幕配置,再叠加一线品牌完善的售后服务与实实在在的国家补贴优惠,无疑是 2025 年最值得关注的学生党首选游戏本之一。 学生在选购游戏本时通常关注…

    2025年12月6日 硬件教程
    000
  • Linux如何设置静态IP地址_Linux静态IP地址配置详细步骤

    首先确认网络接口名称,再根据发行版选择配置方式:Ubuntu/Debian使用Netplan编辑yaml文件设置静态IP,CentOS/RHEL系列修改ifcfg-接口文件,最后应用配置并验证网络连通性。 在Linux系统中设置静态IP地址是网络配置中的常见操作,适用于服务器部署、远程访问等需要固定…

    2025年12月6日 运维
    000
  • 玩个游戏又热又吵?AI 高静游戏本让你换个体验

    游戏本究竟应该怎么选?是很多朋友困扰的问题。尤其是面对众多参数,应该如何花最少的钱,来选择一款性能强大的游戏本。这不眼下临近开学季,不少学生后台私信该如何选购一款游戏本,来满足日常的游戏需求,今天我们就一起来聊聊,游戏本究竟应该怎么选。 其实选购一款游戏本不光要看冷冰冰的参数,实际的体验会更为重要。…

    2025年12月6日 硬件教程
    000
  • 布局优化升级 WIFI7 华硕 B850 重炮手白色版主板评测

    华硕最近推出一款 tuf gaming b850m-plus wifi7 w 重炮手白色版主板。作为重炮手系列的新品,这款主板在外观上却与之前的型号格外不同,因为华硕这次采用了白色 pcb+ 银灰散热装甲的色调外观设计,让重炮手也能适配白色主机。对于最近想要打造白色主机的玩家们是一个全新的选择。同时…

    2025年12月6日 硬件教程
    000
  • React中动态更新下拉菜单选项:构建级联选择器的实践指南

    本教程详细介绍了如何在react应用中实现级联选择器,即根据一个下拉菜单(父级)的选择动态更新另一个下拉菜单(子级)的选项。我们将利用`usestate`管理组件状态和下拉菜单值,并结合`useeffect`钩子监听父级选择的变化,从而触发异步数据获取并更新子级下拉菜单的选项列表,确保用户界面的响应…

    2025年12月6日 web前端
    000
  • 严重警告!RTX 5090绝对不要拆开 坏了根本没法修

    作为专注于硬件维修的技术团队,NorthridgeFix时常展示他们让故障显卡重获新生的案例。然而,即便是经验丰富的他们,也有无能为力的时候——尤其是面对那既高端又娇贵的RTX 5090 FE公版卡。 最近,他们接到了两块损坏的RTX 5090显卡,问题都出在水冷改装之后。其中一块是非公版型号,经过…

    2025年12月6日 行业动态
    000
  • 使用 JavaScript 链接直接打开 Gmail 应用

    本文介绍了如何通过 JavaScript 创建链接,实现在 Android 和 iOS 设备上直接打开 Gmail 应用。针对不同平台,分别提供了 `intent://` 和 `googlegmail://` 两种 URI scheme 的使用方法,并讨论了在应用未安装情况下的处理方案,以及与默认邮…

    2025年12月6日 web前端
    000
  • 如何在mysql中设置登录失败锁定策略

    MySQL通过connection_control插件实现登录失败防护,连续输错5次密码后将触发连接延迟,虽无直接账户锁定功能,但可结合ACCOUNT LOCK和外部工具构建完整防护体系。 MySQL 本身不直接提供登录失败锁定策略(如连续输错密码5次就锁定账户),但可以通过插件方式实现,最常用的是…

    2025年12月6日 数据库
    000
  • 三星 Galaxy A35 WiFi无法连接 三星 Galaxy A35网络优化

    先检查飞行模式和WiFi开关,重启设备并重连网络;若无效,可手动设置静态IP和公共DNS;更新系统或重置网络设置;最后尝试锁定2.4GHz频段,多数问题可解决。 三星 Galaxy A35 出现 WiFi 无法连接的情况,多数时候是软件或设置问题,可以一步步排查解决。网络优化则能让连接更稳定快速。 …

    2025年12月6日 手机教程
    000
  • laravel如何导出数据到Excel或CSV文件_Laravel导出Excel与CSV文件方法

    最常用方式是使用maatwebsite/excel包。1. 通过Composer安装并配置服务提供者和门面;2. 使用Artisan命令创建导出类,如UsersExport,并编写数据导出逻辑。 在 Laravel 中导出数据到 Excel 或 CSV 文件,最常用的方式是结合 maatwebsit…

    2025年12月6日 PHP框架
    000
  • Linux中如何配置Apache_Linux配置Apache服务的详细教程

    首先安装Apache服务,CentOS使用yum或dnf命令,Ubuntu使用apt命令;接着启动并设置开机自启,通过systemctl命令管理服务状态;验证服务运行可通过浏览器访问IP或查看服务状态;然后配置虚拟主机,创建网站目录、设置权限、编写测试页面,并建立虚拟主机配置文件;最后调整防火墙规则…

    2025年12月6日 运维
    000
  • paperok查重官网入口官网地址 paperok查重官方网站直达链接

    PaperOK查重官网入口是https://www.paperok.com/,提供论文查重、报告生成、智能改写等功能,支持多场景检测与移动端使用,保障数据安全。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ PaperOK查重官网入口在哪里…

    2025年12月6日 科技
    000
  • iPhone 13 Pro如何快速定位丢失耳机

    可通过“查找”App定位丢失的AirPods。打开App选择设备,耳机在附近可播放声音寻找,离线则显示最后上线位置;若为AirPods Pro(第二代及以上),iPhone 13 Pro可提供精确查找指引;还可标记为丢失模式并留联系方式,以便拾获者联系归还;无iPhone时可用iCloud网页端操作…

    2025年12月6日 手机教程
    000
  • 机械革命耀世 16Ultra 评测 主流性能做工精致 长江存储 PC450 亮点多

    如今游戏笔记本可谓劲头正猛,主流玩家也从单一的配置优先和性能释放,转为追求更高的品质做工、更震撼的屏幕和更稳定的使用体验,还要有更高的性价比。机械革命耀世 16ultra 正是在这样市场需求下应运而生的高能之作,将 intel 酷睿 ultra7 225hx 处理器与 nvidia geforce …

    2025年12月6日 硬件教程
    000
  • laravel如何优雅地处理模型观察者(Observers)_Laravel模型观察者优雅处理方法

    使用Laravel模型观察者处理Eloquent事件可提升代码可维护性。1. 适用于用户注册发邮件、更新缓存、删除同步统计、记录日志等场景。2. 通过php artisan make:observer生成观察者,并在AppServiceProvider中用observe()方法注册。3. 观察者支持…

    2025年12月6日 PHP框架
    000
  • 长城汽车2025年Q3营收增20.5% 净利润接近23亿元

    10月24日,长城汽车公布了其第三季度财务报告,数据显示公司经营规模持续扩张,但盈利面临一定压力。2025年第三季度,长城汽车实现营业总收入612.47亿元,同比增长20.51%,增速较上年同期明显加快。然而,归属于上市公司股东的净利润为22.98亿元,同比下滑31.23%。 ☞☞☞AI 智能聊天,…

    2025年12月6日 科技
    000
  • 淘宝/天猫服务体验指标标准是什么?淘宝/天猫服务体验指标标准解析:商家必知的运营新规!

    在电商平台竞争愈发激烈的背景下,淘宝天猫近期推出的服务体验指标升级政策正成为商家突破重围的核心抓手。此次新规不仅将物流权重显著提升,更引入全新的店铺标签认证机制,直接影响消费者购买决策与平台流量倾斜方向。数据显示,2025年达到服务标准的店铺转化率平均增长23%,标志着电商服务正式迈入“数据驱动认证…

    2025年12月6日 自媒体
    000

发表回复

登录后才能评论
关注微信