蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型

蚂蚁与中国人民大学发布首个原生 moe 扩散语言模型

蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型(dLLM)——“LLaDA-MoE”。

该模型采用非自回归的掩码扩散机制,突破了传统语言模型依赖自回归生成的固有范式,在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平,有力挑战了“语言生成必须逐字递进”的主流观点。

实验结果表明,LLaDA-MoE在代码编写、数学解题及智能Agent任务中的表现显著优于LLaDA1.0/1.5和Dream-7B等现有扩散语言模型,并在多项指标上接近甚至超越自回归模型Qwen2.5-3B-Instruct。值得注意的是,该模型仅需激活1.4B参数即可实现与3B全参数稠密模型相媲美的性能,充分展现了MoE架构在提升计算效率方面的优势。

“LLaDA-MoE的成功训练验证了dLLM在工业级大规模场景下的可扩展性与稳定性,标志着我们在通往更大规模扩散语言模型的路上迈出了关键一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布会上表示。

天工大模型 天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

天工大模型 115 查看详情 天工大模型

中国人民大学高瓴人工智能学院李崇轩副教授指出:“尽管过去两年大模型取得了飞速进展,但一些根本性问题依然存在。这背后的核心原因在于当前主流模型普遍采用自回归方式——即单向地从前往后预测每一个token,导致难以建模token间的双向交互关系。”

为突破这一瓶颈,部分研究者开始探索并行解码的扩散语言模型路径。然而,现有的dLLM大多基于全参数稠密结构,无法继承ARM中MoE架构所具备的‘扩大参数、按需计算’的优势。在此背景下,蚂蚁与人大联合团队率先实现技术突破,推出了全球首个原生支持MoE结构的扩散语言模型LLaDA-MoE。

蓝振忠还宣布,团队将在近期全面开源LLaDA-MoE的模型权重及其自主研发的高效推理框架,旨在携手全球开发者共同推动通用人工智能(AGI)的下一轮跃迁。

以上就是蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/351821.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 22:34:20
下一篇 2025年11月5日 22:40:41

相关推荐

  • html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

    HTML搜索框跳转失败多因表单action或参数错误,可通过五种方法解决:一、百度用form提交至https://www.baidu.com/s?q=关键词;二、Google类似,action为https://www.google.com/search;三、JavaScript拼接必应URL并loc…

    2025年12月23日
    200
  • 从OpenAI API JSON响应中高效提取生成文本内容

    本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串,并访问`choices[0].text`属性,可以安全、高效地获取核心文本内容,从而避免直接字符串操作的潜在问题,确保api数据处理的健壮性。 OpenA…

    2025年12月23日
    000
  • HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

    HTML语义化正朝着智能、高效、包容发展,深度融合结构化数据与ARIA属性,提升机器理解;2. 组件化趋势推动可复用语义结构普及,Web Components实现自定义语义标签;3. 语义化助力性能优化与可访问性,支持懒加载与内容优先级划分;4. AI工具将自动生成语义化代码并辅助检测,降低实践门槛…

    2025年12月23日
    000
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    000
  • HTML5 section怎么用_HTML5内容分区标签应用场景说明

    在HTML5中,标签用于定义文档中具有明确主题的独立内容区块,需包含标题以体现其结构性与语义性,常用于文章章节、产品模块等场景,区别于无语义的和可独立分发的。 在HTML5中,section 标签用于定义文档中的一个独立内容区块。它不是简单的容器,而是有语义的结构化标签,表示文档中一个主题性的分区,…

    2025年12月23日
    000
  • htm算法 前景如何_分析HTM算法应用前景

    HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值,其无需大量标注数据的特性适合工业监控、网络安防等领域;但受限于生态薄弱、性能不及主流模型及工程实现难度,短期内难以成为主流,更可能作为边缘计算或AI系统补充技术,在特定专业领域持续发展。 HTM(Hierarchical Tempor…

    2025年12月23日
    000
  • HTML结构化数据怎么添加_Schema标记添加教程

    Schema标记通过结构化数据帮助搜索引擎理解网页内容,提升搜索结果展示效果,如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型(如Article、Product)嵌入HTML中,可增强SEO,需通过Google Rich Results…

    2025年12月22日
    000
  • 如何实现自定义提示

    掌握自定义提示需构建迭代工作流,通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考,实现AI输出的精准控制与高效协同。 实现自定义提示,核心在于理解与AI模型交互的本质,并将其从“提问”升级为“引导”。它不是简单的抛出问题,而是通过精心设计的语言结构、上下文信息、…

    2025年12月22日
    000
  • javascript的机器学习如何入门_有哪些可用的JavaScript库

    JavaScript适合浏览器端轻量推理与教学,不宜训练大模型;推荐从线性回归、KNN等简单任务入手,优先掌握张量操作、模型流程及Chrome调试技巧。 JavaScript 做机器学习确实可行,但得明确一点:它不适合训练大型模型,更适合在浏览器端做轻量推理、数据预处理、教学演示或与 Web 应用集…

    2025年12月21日
    000
  • JavaScript机器学习与人工智能库应用

    JavaScript在AI领域应用扩展,依托TensorFlow.js实现浏览器内模型推理与训练,利用WebGL加速;ML5.js提供高层接口,简化图像识别、风格迁移等功能调用;Brain.js支持轻量级神经网络开发,适用于前端智能场景如实时检测、自动补全等,虽性能不及Python,但在交互式轻量应…

    2025年12月20日
    100
  • LangChain HNSWLib 向量存储机制与数据持久化指南

    本文详细解析langchain中hnswlib向量存储的工作原理,明确其作为内存存储的特性,指出数据实际存储在项目部署的服务器上,而非langchain官方服务器。同时,文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件,确保数据安全与可靠性,并探讨在实际应用中的注意事…

    2025年12月20日
    000
  • 如何构建一个支持AI辅助代码生成的开发工具?

    答案是构建AI辅助开发工具需聚焦开发者真实痛点,通过代码上下文感知引擎理解语义,结合本地与云端推理平衡速度与质量,强化安全隐私保护,并深度集成主流IDE实现反馈闭环,让AI成为响应快、理解准、可信赖的编程搭档。 构建一个支持AI辅助代码生成的开发工具,核心在于将AI能力无缝集成到开发者的工作流中,提…

    2025年12月20日
    000
  • JavaScript中的Web Assembly(WASM)带来了哪些性能突破?

    WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力,显著提升Web性能;它与JavaScript互补,使浏览器能运行AutoCAD、Figma等重型应用,并支持4K视频处理、大模型训练等复杂任务,推动Web向桌面级体验演进。 WebAssembly(WASM)为JavaScript生态带来…

    2025年12月20日
    000
  • 使用LINE Bot与OpenAI API发送文本和贴图的完整教程

    本文详细介绍了如何在LINE Bot中集成OpenAI API生成文本回复,并在此基础上发送LINE贴图。核心挑战在于LINE Messaging API的replyToken通常只能使用一次,导致连续发送文本和贴图时出现400错误。解决方案是利用API支持一次性发送多条消息的特性,将文本和贴图消息…

    2025年12月20日
    000
  • C语言数据结构:数据结构在人工智能中的关键作用

    C 语言数据结构:数据结构在人工智能中的关键作用 概述 在人工智能领域,数据结构对于处理大量数据至关重要。数据结构提供了一种组织和管理数据的有效方法,优化算法和提高程序的效率。 常见的数据结构 立即学习“C语言免费学习笔记(深入)”; C 语言中常用的数据结构包括: 数组:一组连续存储的数据项,具有…

    2025年12月18日
    000
  • C语言算法问答集:将算法应用于人工智能

    搜索算法:二分查找,高效地在数组中查找元素。排序算法:快速排序,将数据序列按特定顺序排列。图形算法:dijkstra 算法,寻找两个节点间最短路径。机器学习算法:线性回归,训练模型对数据进行预测。 C 语言算法问答集:将算法应用于人工智能 前言 算法在人工智能(AI)中扮演着至关重要的角色,可为 A…

    2025年12月18日
    000
  • 人工智能如何提升 C 代码安全性检查

    答案:人工智能(ai)通过数据流分析、启发式检测和代码重构建议等方式提升了 c 代码安全性检查的效率。数据流分析:识别数据流并发现安全漏洞,如缓冲区溢出。启发式检测:学习已知漏洞模式并识别类似模式。代码重构建议:提供将不安全代码转换为安全替代方案的建议。 人工智能提升 C 代码安全性检查 简介C 语…

    2025年12月18日
    000
  • 人工智能支持的 C 代码覆盖率分析

    人工智能支持的 C 代码覆盖率分析 在软件开发中,代码覆盖率分析是一个关键步骤,它可以帮助开发人员识别未执行的代码路径。传统的方法通常涉及编写测试场景并手动检查执行情况。然而,人工智能 (AI) 的出现为自动化和改进代码覆盖率分析过程开辟了新的可能性。 AI 在代码覆盖率分析中的作用 AI 算法可用…

    2025年12月18日
    000
  • 人工智能如何帮助 C 语言代码在嵌入式系统中应用?

    人工智能 (ai) 通过以下方式提升嵌入式 c 语言代码的应用:代码优化:识别高能量耗或计算密集型功能并将其优化。代码生成:使用自然语言处理 (nlp) 从规格中自动生成代码。测试和验证:自动化测试和验证过程,检测传统方法可能错过的缺陷。 人工智能如何提升嵌入式系统中 C 语言代码的应用 人工智能 …

    2025年12月18日
    000
  • 人工智能如何为 C 语言代码提供安全增强功能?

    人工智能通过提供以下功能来提升 c 代码安全性:静态分析:识别潜在安全漏洞(例如缓冲区溢出);动态分析:监控代码执行并检测异常行为;模糊测试:生成随机输入以测试代码的异常行为;自动化修复:建议修复措施或自动生成补丁程序。 人工智能赋能 C 代码:提升安全性 人工智能 (AI) 在 C 代码安全方面发…

    2025年12月18日
    100

发表回复

登录后才能评论
关注微信