在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

重写文本:

大模型格局再变:阶跃星辰跻身前五

国内人工智能领域传来重磅消息:

头部大模型创业公司阶跃星辰凭借其万亿参数大语言模型 Step-2 在权威大模型基准 LiveBench AI 上取得突破,位列第五,成为前十名中唯一的国产大模型。

Step-2 仅次于 OpenAI 和 Anthropic 两家公司,进一步凸显了国产大模型的快速发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

榜单地址:https://livebench.ai/#LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。它旨在消除现有 LLM 基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

LiveBench 采用一种创新的基准测试方法,包含 6 大类共 18 项任务。为了防止大模型“作弊”,LiveBench 每月发布新问题,这些问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计,以限制潜在的数据污染。每个问题都具有可验证且客观的真实答案,从而实现难题的自动化评分,无需 LLM 评审员。通过定期更新问题集和采用客观的自动化评分方法,LiveBench 提供了一个公平且准确的评估平台,同时促进了 LLM 的持续改进和社区参与。在最近的榜单中,step-2-16k-202411 模型的“Global Average”得分位居第五,已非常接近第三名和第四名。值得注意的是,在提交的成绩中,Step-2 的指令跟随(IF Average)得分位居全榜第一,展示了对语言生成细节的强大控制力。具体来说,该任务要求对《卫报》最近的新文章进行转述、简化、概括或编写故事,同时遵循一项或多项指令,例如字数限制或将特定元素纳入答复中。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

不断进化的 Step-2 万亿参数大模型

自发布以来,Step-2 持续快速迭代,与国际领先大模型的差距大幅缩小。

今年 3 月,阶跃星辰推出了 Step-2 语言大模型预览版,成为国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间,阶跃星辰发布了 Step-2 万亿参数语言大模型正式版,其在逻辑推理、编程、中英文知识和指令理解等方面的表现接近国际顶尖模型。

深入了解,Step-2 万亿参数语言大模型有两大亮点:MoE 架构和万亿参数。

训练 MoE 模型有两种方式:基于现有模型进行升级(upcycle)或从头开始训练。upcycle 方式计算需求低且训练效率高,但上限较低。而从头开始训练 MoE 模型难度更高,但能达到更高的上限。

AGI-Eval评测社区 AGI-Eval评测社区

AI大模型评测社区

AGI-Eval评测社区 63 查看详情 AGI-Eval评测社区

阶跃星辰团队自主研发了 Step-2 MoE 架构并从头开始训练。通过专家参数共享和异构化专家设计等创新设计,Step-2 的每个专家模型都得到充分训练,总参数量达到万亿级,每次训练或推理激活的参数量也高于市面上的大多数密集模型。

此外,训练这样一个万亿参数模型对系统团队提出了极大挑战。在 Step-2 训练过程中,阶跃星辰系统团队突破了 6D 并行、极致显存管理和全自动化运维等关键技术,成功完成了 Step-2 的每一次升级。

根据 Scaling Law,当模型参数达到万亿规模时,推理能力(如数学和编程)将显著提升。这促使 Step-2 取得了与 OpenAI o1、Claude 3.5 Sonnet 等模型相当的出色表现。

不断进化的 Step-2 万亿参数语言大模型已接入阶跃星辰的 C 端智能助手「跃问」,可在跃问 App 和网页端(https://yuewen.cn)使用。

阶跃星辰的大模型矩阵打造之路

与国内大模型领域的知名公司相比,阶跃星辰是后来者。该公司由微软前全球副总裁姜大昕创办,去年 4 月成立,今年 3 月才崭露头角。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

1. 阶跃星辰的创始人兼首席执行官姜大昕,曾担任微软全球副总裁和微软亚洲互联网工程院首席科学家。

2. 尽管成立时间较短,阶跃星辰已跻身国内 AI 创业公司第一梯队,并在一年内迅速发布了 Step 系列模型“全家桶”,包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V 和图像生成模型 Step-1X。

3. 在 AGI 技术路线图上,阶跃星辰选择了单模态、多模态、统一多模态理解和生成、世界模型和通用人工智能(AGI)的路径。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

在快速迭代模型的同时,这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型 + 产品矩阵,呈现出强势崛起的姿态。

以上就是在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/612664.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 02:16:24
下一篇 2025年11月11日 02:18:05

相关推荐

  • Janction (JCT)币发展路线图_JCT价格预测模型

    Janction主网上线并提升网络稳定性,集成AI计算市场功能,部署跨链互操作性协议,上线治理系统与社区决策机制,开放企业级API接口。 Janction (JCT) 是一个结合 DePIN 与 AI 的区块链项目,旨在构建去中心化的人工智能计算基础设施。 一、主网上线与网络稳定性提升 该阶段的核心…

    好文分享 2025年12月11日
    000
  • 警惕币圈新型骗局,看完这篇文章省下几十万学费!

    币圈投资需警惕虚假平台、社交工程、空气币和量化机器人骗局,防范关键:核实平台资质、不点陌生链接、拒绝高收益诱惑、保护钱苞私钥。 Binance币安 欧易OKX ️ Huobi火币️ gateio芝麻   币圈投资风险重重,新型骗局层出不穷。了解常见诈骗手段,掌握防范技巧,能有效保护个人资产安全。 一…

    2025年12月11日
    000
  • “开放版本”(Open Edition)NFT发行模式是什么?

    开放版本NFT发行模式指在特定时间内不限铸造数量,按固定价格发售。一、限时开放版本设定明确起止时间,用户在此期间内可任意铸造,项目方公布时间与价格,用户通过官方页面连接钱-包,输入数量并确认交易,完成后NFT到账。二、无限期开放版本无截止时间,持续开放铸造,项目方部署无时间锁合约,用户随时访问官网入…

    2025年12月11日
    000
  • 零成本撸空投教程,小资金也能博取百倍收益!

    使用独立钱苞参与空投可隔离风险,需配置MetaMask并添加多链网络;关注Twitter、Discord及Airdropalert获取项目信息;通过跨链、Swap和提供流动性完成链上任务;点赞、转发、置顶推文及加入Discord完成社交任务;用指纹浏览器、独立邮箱和静态代理管理多账号防关联。 Bin…

    2025年12月11日
    000
  • 比特币骗局如何防范_加密投资亏损怎么处理?

    面对比特币骗局需立即识别高收益陷阱、验证平台合法性、强化账户安全。首先警惕年化超10%的项目,查证监管注册与资金流向;选择受SEC或MAS等监管的平台,手动输入官网域名并确认HTTPS加密;设置高强度密码,启用TOTP双因素认证,使用硬件账户离线存储私钥;亏损后应审查交易记录,区分市场波动与诈骗,合…

    2025年12月11日
    200
  • 详解跨链通信协议(IBC):Cosmos生态的底层技术魔法

    IBC通过轻客户端和默克尔证明实现跨链通信,需先建立连接并部署轻客户端,再创建通道传输数据,中继器负责传递数据包并验证,通信失败时可通过重启中继、超时处理、时间同步和更新轻客户端修复。 跨链通信协议(IBC)是Cosmos生态实现区块链互操作性的核心技术,使不同链之间可安全传递数据与资产。 为了方便…

    2025年12月11日
    000
  • Janction (JCT)币市场定位_JCT未来价格区间预测

    JCT代币是Janction平台的核心,用于支付AI算力费用、激励节点参与和链上治理,流通量114.9亿枚,占总量22.99%。价格受交易所上线、换手率高达41%、历史波动区间0.0053-0.007美元及空投后抛压影响显著。当前估值约3.25亿美元,技术面显示0.0053美元为关键支撑,链上活跃度…

    2025年12月11日
    000
  • Worldcoin的“人格证明”(Proof of Personhood)是什么?

    Worldcoin通过Orb设备虹膜扫描创建去中心化身份World ID,用户完成验证后可获得WLD代币奖励。1、用户在指定地点使用Orb扫描虹膜,生成唯一加密密钥;2、系统基于此在区块链上创建匿名World ID,关联账户地址并用于防机器人验证;3、成功注册者获空投WLD代币,可用于交易、治理或支…

    2025年12月11日
    000
  • 跨链技术研究_实现方式、项目对比与应用前景

    跨链技术通过多种机制实现区块链间的价值与信息互通。1、哈希时间锁确保原子交换,用户在规定时间内通过哈希值与原始值完成双向锁定与解锁,否则交易回退;2、中继链模式构建专用链同步多链状态,验证交易后在目标链生成映射资产,Polkadot与Cosmos Hub采用此架构;3、侧链方案通过双向锚定锁定主链资…

    2025年12月11日
    000
  • GMX和GNS是什么?详解去中心化永续合约赛道的创新

    GMX与GNS均为去中心化永续合约领先协议,但机制不同:GMX采用多资产GLP池承接交易风险,支持50倍杠杆,收益分给GLP和GMX质押者;GNS通过稳定币流动性池运行gTrade平台,提供超150倍杠杆,覆盖加密、股票、外汇等多类资产,以回购销毁GNS代币强化价值。两者在流动性结构、风险敞口与产品…

    2025年12月11日
    000
  • DeFi“收益农场”是什么?一文详解高年化收益的来源与风险

    DeFi“收益农场”通过流动性质押、手续费分成、借贷利息和收益聚合器实现高收益:1、在去中心化交易所为交易对提供流动性并质押LP代币以获取新代币奖励;2、作为流动性提供者按比例获得交易手续费,但需承担无常损失风险;3、将资产存入借贷平台赚取市场利率利息,注意抵押品清算对系统的影响;4、使用收益聚合器…

    2025年12月11日
    000
  • 如何在熊市中布局?2025年牛市到来前你需要做的准备

    熊市是播种希望的黄金期,成功需靠逆向思维与提前布局。保持耐心心态,系统学习区块链知识,复盘投资得失;确保场外现金流稳定,分批买入并保留备用资金;聚焦AI、RWA、GameFi等核心赛道,精选具备长期价值的优质项目,构建分散化投资组合,远离炒作垃圾币。 熊市是市场的沉寂期,但对有远见的投资者而言,这正…

    2025年12月11日
    000
  • 什么是“零知识机器学习”(ZKML)?AI与隐私技术的交集

    零知识机器学习通过零知识证明实现隐私保护与模型验证。1、将推理过程转化为数学电路并用zk-SNARKs生成证明,使第三方可在不接触数据和模型的情况下验证结果真实性;2、为模型生成唯一哈希标识,推理时同步产出绑定输入、输出与模型身份的零知识证明,并通过链上合约验证以确认所有权;3、在去中心化AI网络中…

    2025年12月11日
    000
  • Janction (JCT)币详细介绍_JCT长期价格展望

    Janction(JCT)是基于币安智能链的去中心化AI计算平台,通过构建分布式GPU算力市场,整合AI模型、算力与数据流,实现机器学习自动化。其核心采用“贡献证明”机制,公平奖励算力与数据提供者,并通过二层网络形成虚拟GPU单元供用户租用,降低开发者AI训练成本,所有交易同步至主链确保透明。JCT…

    2025年12月11日
    000
  • Janction (JCT)币生态系统_JCT币价潜力评估

    JCT币价潜力取决于其去中心化AI计算生态的落地情况。1、Janction需成功构建全球分布式GPU市场,实现资源高效共享;2、二层网络应具备高并发处理与负载均衡能力;3、“贡献证明”机制须准确衡量并奖励参与者;4、JCT代币需广泛应用于质押、支付与治理。市场数据方面,需关注高流动性交易所的成交额、…

    2025年12月11日
    000
  • 币圈回调详解:原因、持续时间及应对策略

    币圈回调是数字资产价格在上涨后因宏观经济、监管政策、市场情绪和获利了结等多重因素引发的周期性下跌。短期回调持续数天至两周,中期调整达数周至数月,长期熊市可延续一年以上。面对回调,投资者应重新审视资产配置,评估持仓基本面并调整结构;严格执行风险管理,预设止损单避免情绪化操作;结合RSI与移动平均线等技…

    2025年12月11日
    000
  • 稳定币在DeFi中作用是什么?稳定币生态介绍

    稳定币是DeFi的基石,通过锚定美元等资产提供价格稳定性;其在DeFi中充当交换媒介、借贷抵押品、流动性池燃料及避险工具;主要类型包括法币抵押型(如USDT、USDC)、加密资产抵押型(如DAI)和算法稳定币;截至2025年11月,全球稳定币市值超5000亿美元,未来将在监管合规与技术创新中推动加密…

    2025年12月11日
    000
  • 什么是稳定币?如何维持价值?知名稳定币对比

    稳定币是价值锚定法币的数字资产,用于降低加密市场波动性。其主要类型包括:由法币储备支持的USDT和USDC,市值分别约2000亿和1800亿美金,前者流动性强但受监管关注,后者合规透明;基于加密资产超额抵押的DAI,市值约150亿美金,去中心化程度高但依赖抵押品稳定。三种模式分别以储备信任、链上机制…

    2025年12月11日
    000
  • COOKIE币价格驱动因素_2027-2050年长期持有策略

    COOKIE币价格受平台采用、质押机制、市场流动性及技术发展影响,长期价值取决于生态扩展与创新,建议关注官方动态、质押率、交易所 listings 及技术路线图执行情况。 COOKIE币的价格受多重因素影响,长期持有需关注生态发展与市场动态。 一、平台采用与生态扩展 随着更多项目与Cookie DA…

    2025年12月11日
    000
  • 欧易交易所手续费算低吗?欧易交易所适合新手吗?

    欧易(OKX)采用挂单-吃单手续费模式,等级越高费率越低,普通用户挂单0.08%、吃单0.1%;提供精简版和专业版界面,建议新手从精简版开始;平台设有学院、帮助中心和客服支持,便于学习与问题解决;产品涵盖现货、合约等,建议新手先掌握规则再参与高风险交易。 欧易okx 欧易okx官网入口: 欧易okx…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信