蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer

程序猿 • 2025年11月2日 20:21:21 • 行业动态 • 阅读 1

蚂蚁集团近日正式开源了业界首个高性能扩散语言模型推理框架dinfer。

在多项基准测试中，dInfer展现出卓越的性能表现：其推理速度相较英伟达推出的扩散模型推理框架Fast-dLLM提升了10.7倍；在代码生成任务HumanEval中，单批次推理速度达到惊人的1011 Tokens/秒，首次在开源社区实现扩散语言模型的推理效率超越主流自回归模型。这一成果表明，扩散语言模型具备巨大的效率潜力，通过系统性工程创新可充分释放，为通往AGI的技术路径提供了极具竞争力的新选择。

扩散语言模型作为一种新兴范式，将文本生成过程建模为“从噪声逐步去噪恢复完整序列”的过程，具备高度并行化、全局感知能力和结构灵活性三大核心优势。凭借这些特性，由蚂蚁集团与中国人民大学联合发布的LLaDA-MoE等模型已在多个评测中展现出与顶尖自回归（AR）模型相当的生成质量。然而，在推理效率方面，尽管dLLM理论上具备强大潜能，却长期受限于实际工程瓶颈，难以发挥其应有的优势。

当前，扩散语言模型的高效推理面临三大技术挑战：高计算开销、KV缓存机制失效以及并行解码困难。这些问题严重制约了模型的实际部署效率，如何突破这些限制，成为推动dLLM走向实用的关键难题。

为此，dInfer应运而生——这是一款专为扩散语言模型打造的、算法与系统深度融合的高性能推理框架，全面支持包括LLaDA、LLaDA-MoE、LLaDA-MoE-TD在内的多种扩散语言模型。

dInfer采用模块化设计，包含四大核心组件：模型接入层（Model）、KV缓存管理器（KV-Cache Manager）、扩散迭代管理器（Iteration Manager）和解码策略模块（Decoder）。这种可插拔架构使开发者能够像搭积木一样灵活组合不同优化方案，并在统一平台上进行标准化评估。更重要的是，针对上述三大挑战，dInfer在每个模块中均集成了创新性的解决方案。

在搭载8块NVIDIA H800 GPU的服务器上，dInfer的实测表现极为亮眼：

与现有dLLM推理方案Fast-dLLM相比，在保证模型效果一致的前提下，dInfer的平均推理吞吐量（avg TPS）实现了高达10.7倍的提升（681 vs 63.6）；在HumanEval代码生成任务中，单批次推理速度突破至1011 tokens/秒；相较于在行业领先推理框架vLLM上运行的、参数规模和性能相近的自回归模型Qwen2.5-3B，dInfer的平均推理速度达到其2.5倍（681 vs 277）。

蚂蚁集团表示，dInfer成功连接了前沿学术研究与产业应用落地，标志着扩散语言模型从“理论可行”迈向“实践高效”的重要里程碑。此次开源，旨在邀请全球开发者与研究人员共同探索扩散语言模型的广阔潜力，携手构建更高效、更开放的人工智能新生态。

以上就是蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/26798.html

nvidia qwen 人工智能英伟达

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Windows 11 截图工具更新，支持即时标注

上一篇 2025年11月2日 20:13:12

优麒麟 25.10 版本正式发布

下一篇 2025年11月2日 20:38:38

好文分享

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
2000
好文分享

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
0000
好文分享

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
0000
好文分享

manjaro怎么看HTML5_Manjaro系统HTML5支持配置

Manjaro系统通过配置浏览器和安装必要组件可实现完整HTML5支持。1. 使用Firefox或Chromium等现代浏览器访问https://html5test.com测试支持情况；2. 安装ffmpeg及GStreamer插件（gst-libav、gst-plugins-good/bad/ug…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
好文分享

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
好文分享

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
0000
好文分享

JavaScript机器学习与人工智能库应用

JavaScript在AI领域应用扩展，依托TensorFlow.js实现浏览器内模型推理与训练，利用WebGL加速；ML5.js提供高层接口，简化图像识别、风格迁移等功能调用；Brain.js支持轻量级神经网络开发，适用于前端智能场景如实时检测、自动补全等，虽性能不及Python，但在交互式轻量应…

程序猿
2025年12月20日
1000
好文分享

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
0000
好文分享

使用LINE Bot与OpenAI API发送文本和贴图的完整教程

本文详细介绍了如何在LINE Bot中集成OpenAI API生成文本回复，并在此基础上发送LINE贴图。核心挑战在于LINE Messaging API的replyToken通常只能使用一次，导致连续发送文本和贴图时出现400错误。解决方案是利用API支持一次性发送多条消息的特性，将文本和贴图消息…

程序猿
2025年12月20日
0000
好文分享

如何用WebGPU实现实时的光线追踪渲染？

WebGPU通过计算着色器在通用GPU上软件模拟实时光线追踪，依赖BVH加速结构、WGSL算法实现与优化策略，在浏览器中实现高性能渲染，虽受限于无硬件RT核心、BVH动态更新难等瓶颈，但随标准演进与生态成熟，未来潜力巨大。 WebGPU确实能够实现实时的光线追踪渲染，但其核心机制与传统硬件加速的光线…

程序猿
2025年12月20日
0000
好文分享

如何用WebGPU计算着色器进行通用GPU计算？

WebGPU计算着色器通过WGSL和JavaScript API实现浏览器内的GPGPU，支持跨平台高性能并行计算，相比CUDA/OpenCL牺牲部分底层控制以换取部署便利，未来将在AI推理、科学计算等领域持续拓展。 WebGPU计算着色器为浏览器带来了通用GPU计算（GPGPU）的能力，它允许开发…

程序猿
2025年12月20日
0000
好文分享

c++如何使用CUDA进行GPU并行计算_c++ NVIDIA GPU编程入门【HPC】

C++结合CUDA在NVIDIA GPU上并行计算的核心是编写__global__核函数并在GPU线程中并发执行，CPU负责数据准备、内存搬运和启动kernel；需正确配置CUDA环境、管理host/device内存、同步执行并避免常见陷阱。要用C++结合CUDA在NVIDIA GPU上做并行计算…

程序猿
2025年12月19日
0000
好文分享

如何用C++进行GPU通用计算（GPGPU）？SYCL C++并行编程入门【高性能】

SYCL是Khronos Group推出的ISO C++兼容的单源异构编程标准，支持CPU/GPU/FPGA跨平台并行计算，通过buffer/accessor自动管理内存与同步，无需CUDA/HIP裸代码，一套代码可运行于Intel/AMD/NVIDIA设备。用C++做GPU通用计算，不一定要写C…

程序猿
2025年12月19日
0000
好文分享

c++如何使用TensorRT进行模型部署优化_c++ NVIDIA推理引擎入门【AI】

TensorRT是NVIDIA提供的高性能深度学习推理优化库，专为C++设计，通过序列化→优化→部署流程加速已训练模型在GPU上的推理。 TensorRT 是 NVIDIA 提供的高性能深度学习推理（Inference）优化库，专为 C++ 环境设计，能显著提升模型在 GPU 上的运行速度、降低延迟…

程序猿
2025年12月19日
0000
好文分享

c++如何使用C++ AMP或SYCL进行GPU编程_c++异构计算入门【HPC】

C++ AMP 已被微软弃用，不建议新项目使用；SYCL 是当前更主流、跨平台、标准化的 C++ 异构编程方案，推荐从 SYCL 入手，因其支持多平台、多硬件后端且生态活跃。直接说结论：C++ AMP 已被微软弃用，不建议新项目使用；SYCL 是当前更主流、跨平台、标准化的 C++ 异构编程方案，…

程序猿
2025年12月19日
0000
好文分享

c++如何使用NVIDIA Nsight工具分析GPU程序_c++ CUDA性能调试【工具】

Nsight Compute是定位CUDA核函数瓶颈的首选工具，可精确到指令级，通过ncu命令采集指标（如Occupancy、Memory Throughput），结合cuda-memcheck排查非法内存访问，并需确认kernel实际执行与上下文初始化。用Nsight Compute分析CUDA…

程序猿
2025年12月19日
0000
好文分享

c++如何使用C++ AMP或CUDA进行GPU编程_c++异构计算入门

C++中GPU编程主要通过CUDA和C++ AMP实现。1. CUDA由NVIDIA推出，需使用nvcc编译器，在.cu文件中编写kernel函数，通过cudaMalloc分配显存，cudaMemcpy传输数据，配置grid和block启动并行计算。2. C++ AMP是微软提供的库，基于Direc…

程序猿
2025年12月19日
0000

发表回复

登录后才能评论

蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer

关于作者

相关推荐

发表回复