蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer

蚂蚁集团近日正式开源了业界首个高性能扩散语言模型推理框架dinfer。

在多项基准测试中,dInfer展现出卓越的性能表现:其推理速度相较英伟达推出的扩散模型推理框架Fast-dLLM提升了10.7倍;在代码生成任务HumanEval中,单批次推理速度达到惊人的1011 Tokens/秒,首次在开源社区实现扩散语言模型的推理效率超越主流自回归模型。这一成果表明,扩散语言模型具备巨大的效率潜力,通过系统性工程创新可充分释放,为通往AGI的技术路径提供了极具竞争力的新选择。

扩散语言模型作为一种新兴范式,将文本生成过程建模为“从噪声逐步去噪恢复完整序列”的过程,具备高度并行化、全局感知能力和结构灵活性三大核心优势。凭借这些特性,由蚂蚁集团与中国人民大学联合发布的LLaDA-MoE等模型已在多个评测中展现出与顶尖自回归(AR)模型相当的生成质量。然而,在推理效率方面,尽管dLLM理论上具备强大潜能,却长期受限于实际工程瓶颈,难以发挥其应有的优势。

当前,扩散语言模型的高效推理面临三大技术挑战:高计算开销、KV缓存机制失效以及并行解码困难。这些问题严重制约了模型的实际部署效率,如何突破这些限制,成为推动dLLM走向实用的关键难题。

为此,dInfer应运而生——这是一款专为扩散语言模型打造的、算法与系统深度融合的高性能推理框架,全面支持包括LLaDA、LLaDA-MoE、LLaDA-MoE-TD在内的多种扩散语言模型。

dInfer采用模块化设计,包含四大核心组件:模型接入层(Model)、KV缓存管理器(KV-Cache Manager)、扩散迭代管理器(Iteration Manager)和解码策略模块(Decoder)。这种可插拔架构使开发者能够像搭积木一样灵活组合不同优化方案,并在统一平台上进行标准化评估。更重要的是,针对上述三大挑战,dInfer在每个模块中均集成了创新性的解决方案。

蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer

在搭载8块NVIDIA H800 GPU的服务器上,dInfer的实测表现极为亮眼:

与现有dLLM推理方案Fast-dLLM相比,在保证模型效果一致的前提下,dInfer的平均推理吞吐量(avg TPS)实现了高达10.7倍的提升(681 vs 63.6);在HumanEval代码生成任务中,单批次推理速度突破至1011 tokens/秒;相较于在行业领先推理框架vLLM上运行的、参数规模和性能相近的自回归模型Qwen2.5-3B,dInfer的平均推理速度达到其2.5倍(681 vs 277)。

蚂蚁集团表示,dInfer成功连接了前沿学术研究与产业应用落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的重要里程碑。此次开源,旨在邀请全球开发者与研究人员共同探索扩散语言模型的广阔潜力,携手构建更高效、更开放的人工智能新生态。

以上就是蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/26798.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月2日 20:13:12
下一篇 2025年11月2日 20:38:38

相关推荐

  • 怎样用免费工具美化PPT_免费美化PPT的实用方法分享

    利用KIMI智能助手可免费将PPT美化为科技感风格,但需核对文字准确性;2. 天工AI擅长优化内容结构,提升逻辑性,适合高质量内容需求;3. SlidesAI支持语音输入与自动排版,操作便捷,利于紧急场景;4. Prezo提供多种模板,自动生成图文并茂幻灯片,适合学生与初创团队。 如果您有一份内容完…

    2025年12月6日 软件教程
    100
  • 助力工业转型升级金士顿工博会大放异彩

    在刚刚落幕的第二十五届中国国际工业博览会(简称“工博会”)上,参会嘉宾或满载而归,或回味无穷,但无一例外地达成了一项共识——人工智能正深度赋能新型工业化,中国制造业正从“制造”迈向“智造”,并在转型升级之路上取得了令人瞩目的成就。 工业变革的核心在于技术架构的重塑与关键技术的支撑。当现代工业逐步演进…

    2025年12月6日 行业动态
    000
  • RTX 5090性能怪兽!雷蛇灵刃18 2025游戏本图赏

    10月25日,雷蛇正式推出全新灵刃18 2025款旗舰级游戏笔记本,首发搭载nvidia rtx 50系列显卡,起售价为25999元。 目前该机型已抵达评测室,以下为实机图赏。 新款灵刃18配备一块18英寸双模屏幕,支持UHD+ 240Hz与FHD+ 440Hz两种显示模式,响应时间最快可达3ms。…

    2025年12月6日 行业动态
    000
  • 英特尔Q3财报:终于扭亏为盈 净利润41亿美元

    当地时间23日,美国芯片巨头英特尔发布了2025年第三季度财报,宣布公司成功实现盈利,终结了连续六个季度的亏损局面。这是英特尔在美国政府注资后发布的首份季度财报,营收和净利润双双超出市场预期,净利润高达41亿美元,与去年同期166亿美元的净亏损形成鲜明对比。受此利好消息影响,英特尔美股盘后股价大涨约…

    2025年12月6日 行业动态
    000
  • RTX 5060 Ti 8GB版本没人买吗 曝英伟达正限制其供货 以防堆积在仓库中

    根据媒体Playground报道,由于RTX 5060 Ti 8GB型号市场需求减弱,NVIDIA已开始实施供应管控策略,减少对该型号显卡向合作伙伴及零售商的出货量,以避免库存积压风险。 Board Channels一位消息人士指出,随着RTX 5060 Ti 16GB版本正式进入市场,8GB版本的…

    2025年12月6日 行业动态
    000
  • qq浏览器占用CPU和内存过高怎么优化_qq浏览器性能占用降低方法

    首先启用或重置QQ浏览器硬件加速以减轻CPU负担,接着通过任务管理器结束高占用的后台进程,然后清理缓存并禁用冲突插件释放系统资源,最后更新浏览器和显卡驱动确保软硬件性能最优。 如果您在使用QQ浏览器观看视频或浏览网页时,发现电脑运行缓慢、风扇狂转,这很可能是由于QQ浏览器进程占用了过高的CPU和内存…

    2025年12月6日 电脑教程
    000
  • RTX 5060 Ti 8GB卖不动了!限制供货、不许降价

    10月27日消息,当初RTX 4060 Ti 16GB发布时饱受争议,而到了RTX 5060 Ti这一代,市场风向却彻底逆转,16GB版本俨然成为主流首选。 据多个渠道消息确认,英伟达已针对RTX 5060 Ti系列执行明确的供货调控政策,对8GB与16GB两个版本实行差异化供应,形成“精准投放”的…

    2025年12月6日 行业动态
    000
  • 字节跳动Seed3D 1.0发布:单图生成仿真级3D模型

    近日,字节跳动seed团队正式推出了其最新研究成果——3d生成大模型seed3d 1.0。该模型的核心亮点在于:仅需输入一张任意视角的二维图像,即可自动生成一个具备精细几何结构、高保真纹理贴图以及支持基于物理渲染(pbr)材质的高质量3d模型。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, …

    2025年12月6日 科技
    000
  • 蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王

    ai 能不能真正“动脑子”?这个问题有了新答案。 蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。 它通过强化学习与多阶段推理机制的结合,使模型能够在反馈…

    2025年12月6日 科技
    000
  • AIGC免费检测入口 知网官网查重直达链接

    知网个人查重需付费,官方入口为https://cx.cnki.net,支持查重及AIGC检测,费用1.5元/千字符,登录官网上传文档并支付即可获取报告。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 知网官方目前不提供完全免费的AIGC检测…

    2025年12月6日 科技
    000
  • 突然就“推理 Agent 元年”了,再聊 AI Chat 与 AI Agent

    今年 3 月份,我们还在以为 ai agent 的新纪元需要等到“泛 agi”,依靠大模型自身的能力和与之相辅相成的一系列技术的发展,诸如 rag、调用链等,去将大模型的能力更深入地“外置”给 agent 单元体。 然而到了下半年,随着大模型自身推理能力的爆发,以及生态中 MCP、ACP、A2A、上…

    2025年12月6日 行业动态
    000
  • 《最终幻想7》重制版三部曲制作人:创作者应努力做出比AI更好的游戏!

    《最终幻想7重制版》系列的导演滨口直树近日在接受国外媒体采访时,就生成式人工智能(AI)在游戏制作中的角色发表了看法。他明确表示,自己不会在创作过程中依赖AI,并强调人类创作者应始终掌握创意主导权。 尽管目前史克威尔艾尼克斯尚未出台关于AI使用的正式规范,滨口直树仍坚定地表示,在他负责的项目中,AI…

    2025年12月6日 行业动态
    000
  • AI推文助手如何制作行业白皮书 AI推文助手的专业报告生成

    首先明确白皮书主题与受众,确定行业领域及读者特征,并输入关键词引导AI生成;接着构建包含执行摘要、市场背景等模块的结构化框架,合理分配字数比例并分段指令生成;随后提供权威数据来源与可视化提示,增强内容可信度;再通过设定语言风格与专业术语表,提升文本专业性;最后采用分章节生成与人工校验相结合的方式,确…

    2025年12月6日 科技
    000
  • NVIDIA发布新驱动:10月告别GTX 10/900显卡!

    nvidia近日推出了最新的官方显卡驱动版本“geforce 580.88 driver”,该驱动已通过whql认证,旨在为即将于8月8日发布的两款动作冒险游戏——《四海兄弟:故乡》(mafia: the old country)和《光与影:33号远征队》提供优化支持,特别是为后者带来了dlss 4…

    2025年12月5日
    000
  • Gartner:2024年全球半导体营收6559亿美元,英伟达首登榜首

    2024年全球半导体市场强劲增长,总收入达6559亿美元,同比增长21%。gartner最新数据显示,市场格局发生显著变化,英伟达凭借ai基础设施建设和数据中心gpu需求的强劲增长,首次超越三星电子和英特尔,荣登全球第一大半导体厂商宝座。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无…

    2025年12月5日
    100
  • 京东怎么看商品价格走势?价格波动的原因是什么?五大核心原因详解!

    在京东购物时,你是否注意到同一件商品今天的价格与昨天大不相同?从智能手机到家用电器,从日常用品到高端奢侈品,京东平台上的价格变动无时无刻不在影响着消费者的购买决策。这种波动不仅反映了商家灵活的定价策略,也揭示了市场供需关系的实时变化。依托大数据与人工智能技术,京东商家能够迅速响应市场动向调整售价。而…

    2025年12月5日
    000
  • 0.198 超低风阻 AI 智能纯电轿车极越 07 首秀北京车展

    展览会随着新车发布、新技术展露,每一次的大型车展都是购车用户和汽车爱好者的最佳去处。本届北京车展将于4月25日开幕,极越作为高端智能汽车品牌,将携带 ” 最美 7 系 ” 极越 07 和 ai 智能纯电 suv 极越 01 双双亮相。 本届北京车展,极越以” 极越…

    2025年12月5日 硬件教程
    100
  • ubuntu怎么安装nvidia驱动

    ubuntu安装nvidia驱动的方法:1、在nvidia官网下载合适的驱动;2、屏蔽nouveau驱动;3、关闭图形界面;4、修改文件权限;5、执行安装命令进行安装即可。 本文操作环境:ubuntu 16.04系统、nvidia GTX 1050、thinkpad t480电脑。 一、准备工作: …

    2025年12月5日 运维
    000
  • win10外接显示器没反应怎么解决_外接显示器连接无响应的故障排除

    首先检查连接线和电源,确认显示器输入源正确;接着在Windows 10中使用“显示设置”检测屏幕并调整投影模式;更新或重装显卡驱动;设置合适的分辨率与刷新率;最后通过替换法测试笔记本、显示器及线缆以定位故障。 如果您已将Windows 10笔记本连接至外接显示器,但屏幕无任何显示或系统未识别设备,则…

    2025年12月5日
    000
  • ScholarCopilot— 滑铁卢与卡内基梅隆大学联合推出的AI学术写作助手

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 沁言学术 你的论文写作AI助理,永久免费文献管理工具,认准沁言学术 30 查看详情 ScholarCopilot是什么 scholarcopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队…

    2025年12月5日 科技
    000

发表回复

登录后才能评论
关注微信