每 2 秒吃透一道高数大题！华为终于揭秘准万亿 MoE 昇腾训练系统全流程

程序猿 • 2025年11月17日 06:00:41 • 用户投稿 • 阅读 7

现在，请大家一起来数一下 “1”、”2″。

OK，仅仅 2 秒的时间，一个接近万亿规模的 MoE 大模型就已经掌握了如何解答一道高等数学难题的方法！

而且呢，这个大模型还是完全依靠国产设备进行训练的，整个流程都体现了浓浓的“国产”特色。

这就是华为借助” 昇腾 +Pangu Ultra MoE”这一组合实现的成果——

不仅达成了国产算力与国产模型在全流程上的自主可控训练闭环，还在集群训练系统的性能方面达到了行业顶尖水平。

有多顶尖？来看一组数据：

预训练阶段：昇腾 Atlas 800T A2 万卡集群的 MFU 提升至 41%

后训练阶段：单 CloudMatrix 384 超节点的吞吐量达到 35K Tokens/s

值得一提的是，华为这次公开了一项重要的技术细节。

具体而言，在昇腾 CloudMatrix 384 超节点上，华为披露了高效连接大稀疏比 MoE 强化学习后训练框架的关键技术。

这一举动标志着以强化学习（RL）为核心的后训练进入了超节点集群的新纪元。

不用 GPU 的 ” 锻造 ” 准万亿大模型的方式

在深入探讨华为 Pangu Ultra MoE 训练系统全流程之前，咱们先回顾一下目前的技术难点。

总体来看，在当前的 MoE 预训练和强化学习后训练过程中遇到的挑战可以归纳为六点：

并行策略配置复杂

面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的选择，加上稀疏激活导致的负载不均衡问题，很难仅凭人工经验找到最佳的并行配置方案。

All-to-All 通信瓶颈

专家并行架构需要进行大规模的 token 路由交换，这不仅占用了大量的网络带宽资源，还会使计算资源长时间处于空闲等待状态，极大影响整体训练效率。

系统负载分布不均衡

从注意力机制中序列长度的变化，到专家激活频率的不一致，再到流水线并行各阶段的负载分配问题，这些多层次的不均衡现象拖慢了整个集群的性能表现。

算子调度开销过高

动态路由机制引入了大量的高频小规模算子操作，增加了系统调度负担，减少了核心矩阵计算的比例，从而显著降低了 NPU 的有效利用率。

训练流程管理繁杂

强化学习后训练涉及多个模型实例和多种训练任务，包括 MoE 大模型的训练和推理阶段，整个流程的复杂性给资源分配和系统调度带来了巨大挑战。

大规模扩展受限

强化学习过程中，训练与推理阶段的参数重新映射机制，以及各计算任务间复杂的数据通信流程，成为限制后训练大规模部署的主要障碍。

即便存在这么多难题，华为在这份技术报告中依旧提出了一套完整的端到端全流程解决方案。

第一步：提高训练集群的利用率

超大规模训练集群的有效部署是提升预训练系统性能的关键。

为此，华为团队通过并行策略智能选择、计算通信深度融合、全局动态负载平衡等技术创新，显著提高了集群整体训练效率。

首先是基于系统建模仿真的智能并行优化。

华为团队采用了如下的系统建模仿真框架，将原本需要大量人工试错的并行策略选择问题转化为精确的自动化搜索过程。

根据昇腾 800T A2 训练集群的硬件特性和约束条件，为 Pangu Ultra MoE 718B 模型确定了最优部署配置：

16 路流水线并行（Pipeline Parallelism）进行模型层间切分

8 路张量并行（Tensor Parallelism）专门处理注意力计算

32 路专家并行（Expert Parallelism）实现专家模块分布式计算

2 路虚拟流水线并行（Virtual Pipeline Parallelism）提升流水线效率

最终实现了与昇腾架构深度适配的最优化部署方案。

△训练系统建模仿真流程

其次是 Adaptive Pipe 前反向通算掩盖。

为了突破并行扩展中的通信瓶颈问题，华为团队创新设计了昇腾网络拓扑适配的分层 All-to-All 通信去冗余机制，结合细粒度前反向计算重叠编排，成功将大规模 MoE 训练中的专家并行通信开销降至接近零暴露（

层次化专家并行通信：华为给出了与昇腾训练集群拓扑深度适配的多级通信策略。首先在节点间进行去冗余的 token 收集操作，避免相同 token 在低带宽的跨节点链路上重复传输；随后利用节点内高带宽优势，通过 All-to-All 通信实现 token 的冗余分发。这一分层设计显著提升了专家并行的整体通信效率。

自适应细粒度前反向掩盖：针对分层专家并行通信特点，设计了基于虚拟流水线并行（VPP）的细粒度前反向重叠掩盖策略。相比业界 DualPipe 掩盖方案，该策略将权重内存占用减少一半。通过进一步拆解 MLP 模块计算流程，充分利用分层专家并行通信中各级带宽相对独立的特性，实现算子执行顺序的自适应调优，最终将专家并行通信几乎完全隐藏（未掩盖比例仅为 2%）。

最后是EDP Balance 全局动态负载均衡。

对于 MoE 模型，随着模型规模和集群规模的增长，专家计算、注意力计算以及各层间的负载不均衡问题相互叠加并被显著放大。当多种性能瓶颈同时出现时，通信同步等待会在系统中传播扩散，造成整体性能的严重恶化。

华为团队采用系统性的分析方法，深入剖析专家并行（EP）、数据并行（DP）、流水线并行（PP）各通信域中潜在的负载均衡挑战，提出了 EDP 全局负载均衡优化策略。

这个策略不仅通过专家负载预测和动态调节机制（如下图）实现设备间计算负载的精确平衡，还通过注意力数据重排技术进一步优化了数据并行域间的负载分布效果。

此外，团队将虚拟流水线并行（VPP）机制与硬件规格特点相结合，设计了最优混合并行架构，有效缓解了模型各层间计算负载分布不均的问题，大幅提升了整体训练效率。

△基于专家动态迁移的 EP 间负载均衡整体框架图第二步：释放昇腾单节点的算力

在昇腾超大规模集群优化取得突破性进展之后，华为团队将优化重点转移到底层算子计算效率的深度挖掘。

这一阶段的核心工作围绕昇腾架构深度适配的训练算子加速展开，通过减轻 Host 资源瓶颈以及实施内存优化策略，成功将微批处理规模（MBS）提升至原来的两倍。

同时团队还对算子调度下发链路进行了协同优化，最终实现了昇腾单节点算力的全面释放。

华为团队的 ” 第二步 “，同样包含三个部分；首先就是昇腾亲和的训练算子加速。

在大模型训练计算过程中，FlashAttention、MatMul 以及 Permute/Unpermute 等向量操作算子的执行时间占据了算子总计算耗时的四分之三以上。

针对这些关键算子类型，华为团队充分利用昇腾微架构特性，通过算子流水线排布优化和数学等价冗余计算消除等核心技术手段，实现了训练算子性能的显著跃升。

其次是Host-Device 协同的算子下发优化。

针对同步型间歇性 Host-Bound 和系统性持续性 Host-Bound 问题，华为团队充分发挥昇腾 + 鲲鹏异构系统协同优势，构建了分层优化体系来实现高效算子调度：

对于同步型 Host-Bound 问题，不仅有效消除了同步操作引发的 Host 资源瓶颈，在无法完全规避同步的场景下，还通过优化鲲鹏处理器的算子下发与调度策略，显著降低了同步后的 Host-Bound 开销。

对于系统性 Host-Bound 问题，则采用增大微批处理规模（MBS）、鲲鹏 CPU NUMA 亲和性优化等多维度协同手段，大幅提升算子下发效率。

通过算法与系统的深度协同优化，华为团队成功将 MoE 模型训练中的 Host-Bound 占比控制在 2% 以下，为超大规模模型训练探索出了全新的技术范式。

最后是Selective R/S- 精准的内存手术方案。

华为团队构建了一个精密的内存优化框架：以丰富多样的通用化重计算策略和 Swap 机制作为 ” 精密工具库 “，涵盖从模块级到张量级的细粒度优化选项；配合精心设计的自适应内存管理机制作为 ” 智能调度平台 “。

这个

以上就是每 2 秒吃透一道高数大题！华为终于揭秘准万亿 MoE 昇腾训练系统全流程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/85536.html

moe 内存占用华为吃透处理器工具昇腾流程系统训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

客户管理图谱怎么做好的

上一篇 2025年11月17日 06:00:37

管理费怎么和客户解释

下一篇 2025年11月17日 06:00:43

用户投稿

SASS 中的 Mixins

mixin 是 css 预处理器提供的工具，虽然它们不是可以被理解的函数，但它们的主要用途是重用代码。不止一次，我们需要创建多个类来执行相同的操作，但更改单个值，例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

程序猿
2025年12月24日
3000
用户投稿

React 或 Vite 是否会自动加载 CSS？

React 或 Vite 是否自动加载 CSS？在 React 中，如果未显式导入 CSS，而页面却出现了 CSS 效果，这可能是以下原因造成的：你使用的第三方组件库，例如 AntD，包含了自己的 CSS 样式。这些组件库在使用时会自动加载其 CSS 样式，无需显式导入。在你的代码示例中，cla…

程序猿
2025年12月24日
0000
用户投稿

React 和 Vite 如何处理 CSS 加载？

React 或 Vite 是否会自动加载 CSS？在 React 中，默认情况下，使用 CSS 模块化时，不会自动加载 CSS 文件。需要手动导入或使用 CSS-in-JS 等技术才能应用样式。然而，如果使用了第三方组件库，例如 Ant Design，其中包含 CSS 样式，则这些样式可能会自动加…

程序猿
2025年12月24日
3000
用户投稿

ElementUI el-table 子节点选中后为什么没有打勾？

elementui el-table子节点选中后没有打勾？当您在elementui的el-table中选择子节点时，但没有出现打勾效果，可能是以下原因造成的：在 element-ui 版本 2.15.7 中存在这个问题，升级到最新版本 2.15.13 即可解决。除此之外，请确保您遵循了以下步骤…

程序猿
2025年12月24日
10000
用户投稿

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
3000
用户投稿

CSS 中如何正确使用 box-shadow 设置透明度阴影？

css 中覆盖默认 box-shadow 样式时的报错问题在尝试修改导航栏阴影时遇到报错，分析发现是 box-shadow 样式引起的问题。问题原因使用 !important 仍无法覆盖默认样式的原因在于，你使用了 rgb() 而不是 rgba()，这会导致语法错误。立即学习“前端免费学习笔…

程序猿
2025年12月24日
9000
用户投稿

为何scss中嵌套使用/*rtl:ignore*/无法被postcss-rtl插件识别？

postcss-rtl插件为何不支持在scss中嵌套使用/*rtl:ignore*/ 在使用postcss-rtl插件时，如果希望对某个样式不进行转换，可以使用/*rtl:ignore*/在选择器前面进行声明。然而，当样式文件为scss格式时，该声明可能会失效，而写在css文件中则有效。原因 po…

程序猿
2025年12月24日
0000
用户投稿

Sass 中使用 rgba(var –color) 时的透明度问题如何解决？

rgba(var –color)在 Sass 中无效的解决方法在 Sass 中使用 rgba(var –color) 时遇到透明问题，可能是因为以下原因：编译后的 CSS 代码 rgba($themeColor, 0.8) 在编译后会变为 rgba(var(–…

程序猿
2025年12月24日
0000
用户投稿

## PostCSS vs. Sass/Less/Stylus：如何选择合适的 CSS 代码编译工具？

PostCSS 与 Sass/Less/Stylus：CSS 代码编译转换中的异同在 CSS 代码的编译转换领域，PostCSS 与 Sass/Less/Stylus 扮演着重要的角色，但它们的作用却存在细微差异。区别 PostCSS 主要是一种 CSS 后处理器，它在 CSS 代码编译后进行处…

程序猿
2025年12月24日
0000
用户投稿

SCSS 简介：增强您的 CSS 工作流程

在 web 开发中，当项目变得越来越复杂时，编写 css 可能会变得重复且具有挑战性。这就是 scss (sassy css) 的用武之地，它是一个强大的 css 预处理器。scss 带来了变量、嵌套、混合等功能，使开发人员能够编写更干净、更易于维护的代码。在这篇文章中，我们将深入探讨 scss 是…

程序猿
2025年12月24日
0000
用户投稿

在 Sass 中使用 Mixin

如果您正在深入研究前端开发世界，那么您很可能遇到过sass（语法很棒的样式表）。 sass 是一个强大的 css 预处理器，它通过提供变量、嵌套、函数和 mixins 等功能来增强您的 css 工作流程。在这些功能中，mixins 作为游戏规则改变者脱颖而出，允许您有效地重用代码并保持样式表的一致性…

程序猿
2025年12月24日
4000
用户投稿

SCSS：创建模块化 CSS

介绍近年来，css 预处理器的使用在 web 开发人员中显着增加。 scss (sassy css) 就是这样一种预处理器，它允许开发人员编写模块化且可维护的 css 代码。 scss 是 css 的扩展，添加了更多特性和功能，使其成为设计网站样式的强大工具。在本文中，我们将深入探讨使用 scss…

程序猿
2025年12月24日
0000
用户投稿

SCSS – 增强您的 CSS 工作流程

在本文中，我们将探索 scss (sassy css)，这是一个 css 预处理器，它通过允许变量、嵌套规则、mixins、函数等来扩展 css 的功能。 scss 使 css 的编写和维护变得更加容易，尤其是对于大型项目。 1.什么是scss？ scss 是 sass（syntropically …

程序猿
2025年12月24日
3000
用户投稿

如何正确使用 CSS：简洁高效样式的最佳实践

层叠样式表 (css) 是 web 开发中的一项基本技术，允许设计人员和开发人员创建具有视觉吸引力和响应灵敏的网站。然而，如果没有正确使用，css 很快就会变得笨拙且难以维护。在本文中，我们将探索有效使用 css 的最佳实践，确保您的样式表保持干净、高效和可扩展。什么是css？ css（层叠样式表…

程序猿
2025年12月24日
0000
用CSS实现带箭头的流程进度条

本文介绍的是利用纯css的带箭头流程进度条，兼容到ie8，需要的朋友们下面来一起学习学习。首先写出一个基本的样式。 .cssNav li{ padding: 0px 20px; line-height: 40px; background: #50abe4; display: inline-bloc…

程序猿
2025年12月23日 • 用户投稿
0000
用户投稿

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
3000
用户投稿

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
7000
用户投稿

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
5000
用户投稿

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
6000
用户投稿

Html5如何监听蓝牙_Html5蓝牙监听实现方法【硬件交互】

需通过Web Bluetooth API实现蓝牙数据实时监听：一、用CharacteristicValueChanged事件监听支持Notify/Indicate的特征；二、轮询readValue()应对不支持通知的特征；三、监听GATT连接状态确保链路稳定；四、统一管理多特征订阅防内存泄漏。如果…

程序猿
2025年12月23日
5000

发表回复

登录后才能评论

每 2 秒吃透一道高数大题！华为终于揭秘准万亿 MoE 昇腾训练系统全流程

关于作者

相关推荐

发表回复