
蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型(dLLM)——“LLaDA-MoE”。
该模型采用非自回归的掩码扩散机制,突破了传统语言模型依赖自回归生成的固有范式,在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平,有力挑战了“语言生成必须逐字递进”的主流观点。
实验结果表明,LLaDA-MoE在代码编写、数学解题及智能Agent任务中的表现显著优于LLaDA1.0/1.5和Dream-7B等现有扩散语言模型,并在多项指标上接近甚至超越自回归模型Qwen2.5-3B-Instruct。值得注意的是,该模型仅需激活1.4B参数即可实现与3B全参数稠密模型相媲美的性能,充分展现了MoE架构在提升计算效率方面的优势。
“LLaDA-MoE的成功训练验证了dLLM在工业级大规模场景下的可扩展性与稳定性,标志着我们在通往更大规模扩散语言模型的路上迈出了关键一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布会上表示。
天工大模型
中国首个对标ChatGPT的双千亿级大语言模型
115 查看详情
中国人民大学高瓴人工智能学院李崇轩副教授指出:“尽管过去两年大模型取得了飞速进展,但一些根本性问题依然存在。这背后的核心原因在于当前主流模型普遍采用自回归方式——即单向地从前往后预测每一个token,导致难以建模token间的双向交互关系。”
为突破这一瓶颈,部分研究者开始探索并行解码的扩散语言模型路径。然而,现有的dLLM大多基于全参数稠密结构,无法继承ARM中MoE架构所具备的‘扩大参数、按需计算’的优势。在此背景下,蚂蚁与人大联合团队率先实现技术突破,推出了全球首个原生支持MoE结构的扩散语言模型LLaDA-MoE。
蓝振忠还宣布,团队将在近期全面开源LLaDA-MoE的模型权重及其自主研发的高效推理框架,旨在携手全球开发者共同推动通用人工智能(AGI)的下一轮跃迁。
以上就是蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/351821.html
微信扫一扫
支付宝扫一扫