淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

程序猿 • 2025年12月1日 19:25:27 • 用户投稿 • 阅读 1

9 月 12 日，淘天集团联合爱橙科技正式对外开源大模型训练框架 ——megatron-llama，旨在让技术开发者们能够更方便的提升大语言模型训练性能，降低训练成本，并且保持和 llama 社区的兼容性。测试显示，在 32 卡训练上，相比 huggingface 上直接获得的代码版本，megatron-llama 能够取得 176% 的加速；在大规模的训练上，megatron-llama 相比较 32 卡拥有几乎线性的扩展性，而且对网络不稳定表现出高容忍度。目前 megatron-llama 已在开源社区上线。

开源地址：https://github.com/alibaba/megatron-llama

TextCortex

AI写作能手，在几秒钟内创建内容。

TextCortex 62 查看详情

大语言模型的卓越表现一次又一次地超出了人们的想象。过去几个月，LLaMA 及 LLaMA2 向开源社区的全面放开，使想训练一个自己的大语言模型的人们多了一种很好的选择。在开源社区中，已有非常多的基于 LLaMA 产出的模型，包括进行续训 / SFT（如 Alpaca、Vicuna、WizardLM、Platypus、StableBegula、Orca、OpenBuddy、Linly、Ziya 等）和从零开始训练（Baichuan、QWen、InternLM、OpenLLaMA）的工作。这些工作不仅在目前各种大模型能力客观评测榜单上表现卓越，同时展现了在长文本理解、长文本生成、代码编写、数学求解等实用场景的优秀性能。更进一步，业界出现了很多有意思的产品，例如 LLaMA 结合 Whisper 的语音聊天机器人、LLaMA 结合 Stable Diffusion 的绘画软件、医学 / 法律领域的辅助咨询机器人等。

尽管从 HuggingFace 上可以拿到 LLaMA 的模型代码，但用自己的数据训一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。大模型的体积和数据的规模，使得在普通的计算资源上无法完成有效的训练，算力和成本成为严重的瓶颈。Megatron-LM 社区的用户在这方面的诉求非常急迫。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

淘天集团和爱橙科技在大模型应用上有着非常广阔应用场景，在大模型的高效训练上进行了非常多的投入。LLaMA 的问世，在数据处理、模型设计、微调及强化学习反馈调整等方面都给予了包括淘天集团和爱橙科技在内的许多公司非常多的启示，也助力业务应用场景取得了新的突破。因此，为了回馈整个 LLaMA 开源社区、促进中文预训练大模型开源社区的发展，让开发者们能够更方便地提升大语言模型的训练性能，降低训练成本，淘天集团联合爱橙科技将部分内部优化技术开源，发布 Megatron-LLaMA，期望与每一位合作伙伴共建 Megatron 及 LLaMA 生态。

Megatron-LLaMA 提供了一套标准的 Megatron-LM 实现的 LLaMA，并提供了与 HuggingFace 格式自由切换的工具，方便与社区生态工具兼容。Megatron-LLaMA 重新设计了 Megatron-LM 的反向流程，使得无论在节点数较少需要开较大梯度聚合（Gradient Accumulation, GA）、或是节点数较多必须使用小 GA 的场景，都能够取得卓越的训练性能。

在 32 卡训练上，相比 HuggingFace 上直接获得的代码版本，Megatron-LLaMA 能够取得 176% 的加速；即便是采用 DeepSpeed 及 FlashAttention 优化过的版本，Megatron-LLaMA 仍然能减少至少 19% 的训练时间。

在大规模的训练上，Megatron-LLaMA 相比较 32 卡拥有着几乎线性的扩展性。例如使用 512 张 A100 复现 LLaMA-13B 的训练，Megatron-LLaMA 的反向机制相对于原生 Megatron-LM 的 DistributedOptimizer 能够节约至少两天的时间，且没有任何精度损失。

Megatron-LLaMA 对网络不稳定表现出高容忍度。即便是在现在性价比较高的 4x200Gbps 通信带宽的 8xA100-80GB 训练集群（这种环境通常是混部环境，网络只能使用一半的带宽，网络带宽是严重的瓶颈，但租用价格相对低廉）上，Megatron-LLaMA 仍然能取得 0.85 的线性扩展能力，然而在这个指标上 Megatron-LM 仅能达到不足 0.7。

Megatron-LM 技术带来的高性能 LLaMA 训练机会

LLaMA 是目前大语言模型开源社区中一项重要工作。LLaMA 在 LLM 的结构中引入了 BPE 字符编码、RoPE 位置编码、SwiGLU 激活函数、RMSNorm 正则化以及 Untied Embedding 等优化技术，在许多客观和主观评测中取得了卓越的效果。LLaMA 提供了 7B、13B、30B、65B/70B 的版本，适用于各类大模型需求的场景，也受到广大开发者的青睐。同诸多开源大模型一样，由于官方只提供了推理版的代码，如何以最低成本开展高效训练，并没有一个标准的范式。

Megatron-LM 是一种优雅的高性能训练解决方案。Megatron-LM 中提供了张量并行（Tensor Parallel，TP，把大乘法分配到多张卡并行计算）、流水线并行（Pipeline Parallel，PP，把模型不同层分配到不同卡处理）、序列并行（Sequence Parallel， SP，序列的不同部分由不同卡处理，节约显存）、DistributedOptimizer 优化（类似 DeepSpeed Zero Stage-2，切分梯度和优化器参数至所有计算节点）等技术，能够显著减少显存占用并提升 GPU 利用率。Megatron-LM 运营着一个活跃的开源社区，持续有新的优化技术、功能设计合并进框架中。

然而，基于 Megatron-LM 进行开发并不简单，在昂贵的多卡机上调试及功能性验证更是十分昂贵的。Megatron-LLaMA 首先提供了一套基于 Megatron-LM 框架实现的 LLaMA 训练代码，支持各种规模的模型版本，并且可以很简单地适配支持 LLaMA 的各类变种，包括对 HuggingFace 格式的 Tokenizer 的直接支持。于是，Megatron-LLaMA 可以很便捷地应用在已有的离线训练链路中，无需进行过多的适配。在中小规模训练 / 微调 LLaMA-7b 和 LLaMA-13b 的场景，Megatron-LLaMA 能够轻松达到业界领先的 54% 及以上的硬件利用率（MFU）。

Megatron-LLaMA 的反向流程优化 淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA 图示：DeepSpeed ZeRO Stage-2

DeepSpeed ZeRO 是微软推出的一套分布式训练框架，其中提出的技术对很多后来的框架都有非常深远的影响。DeepSpeed ZeRO Stage-2（后文简称 ZeRO-2）是该框架中一项节约显存占用且不增加额外计算量和通信量的技术。如上图所示，由于计算需要，每个 Rank 都需要拥有全部的参数。但对于优化器状态而言，每个 Rank 只负责其中的一部分即可，不必所有 Rank 同时执行完全重复的操作。于是 ZeRO-2 提出将优化器状态均匀地切分在每个 Rank 上（注意，这里并不需要保证每个变量被均分或完整保留在某个 Rank 上），每个 Rank 在训练进程中只负责对应部分的优化器状态和模型参数的更新。在这种设定下，梯度也可以按此方式进行切分。默认情况下，ZeRO-2 在反向时在所有 Rank 间使用 Reduce 方式聚合梯度，而后每个 Rank 只需要保留自身所负责的参数的部分，既消除了冗余的重复计算，又降低了显存占用。

Megatron-LM DistributedOptimizer 淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA 原生 Megatron-LM 通过 DistributedOptimizer 实现了类似 ZeRO-2 的梯度和优化器状态切分，以减少训练中的显存占用。如上图所示，DistributedOptimizer 在每次获得预设的梯度聚合过的所有梯度后，通过 ReduceScatter 算子，将之前累积的全部梯度分发到不同的 Rank。每个 Rank 只获得自己需要处理的部分梯度，而后进行优化器状态的更新和对应参数的更新。最后各个 Rank 通过 AllGather 的方式从其他节点上获取更新过的参数，最终取得全部的参数。实际训练的结果显示，Megatron-LM 的梯度和参数通信与其他计算串行进行，对于大规模预训练任务，为了保证总批数据大小不变，通常无法开启较大的 GA。于是通信占比会伴随机器增加上升，这时候串行通信的特点导致扩展性很弱。在社区内，这方面的需求也很迫切。淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA
Megatron-LLaMA OverlappedDistributedOptimizer

为了解决这一问题，Megatron-LLaMA 改进了原生 Megatron-LM 的 DistributedOptimizer，使其梯度通信的算子能够可以和计算相并行。特别的，相比于 ZeRO 的实现，Megatron-LLaMA 在并行的前提下，通过巧妙的优化优化器分区策略，使用了更具有具有扩展性的集合通信方式来提升扩展性。OverlappedDistributedOptimizer 的主要设计保证了如下几点：a) 单一集合通信算子数据量足够大，充分利用通信带宽；b) 新切分方式所需通信数据量应等于数据并行所需的最小通信数据量；c) 完整参数或梯度与切分后的参数或梯度的转化过程中，不能引入过多显存拷贝。淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

具体而言，Megatron-LLaMA 改进了 DistributedOptimizer 的机制，提出了 OverlappedDistributedOptimizer，用于结合新的切分方式优化训练中的反向流程。如上图所示，在 OverlappedDistributedOptimizer 初始化时，会预先给所有参数分配其所属的 Bucket。Bucket 中的参数是完整的，一个参数仅属于一个 Bucket，一个 Bucket 中可能有多个参数。逻辑上，每个 Bucket 将会被连续等分成 P（P 为数据并行组的数量）等份，数据并行组中的每个 Rank 负责其中的一份。

Bucket 被放置在一个本地队列（Local grad bucket queue）中，从而保证通信顺序。在训练计算的同时，数据并行组间以 Bucket 为单位，通过集合通讯交换各自需要的梯度。Megatron-LLaMA 中 Bucket 的实现尽可能采用了地址索引，只在有需要值更改时才新分配空间，避免了显存浪费。

上述的设计，再结合大量的工程优化，使得在大规模训练时，Megatron-LLaMA 可以很充分地使用硬件，实现了比原生 Megatron-LM 更好的加速。从32张A100卡扩展到512张A100卡的训练，Megatron-LLaMA在常用混部的网络环境中仍然能够取得0.85的扩展比。

Megatron-LLaMA 的未来计划

Megatron-LLaMA 是由淘天集团和爱橙科技共同开源并提供后续维护支持的训练框架，在内部已有广泛的应用。随着越来越多的开发者涌入 LLaMA 的开源社区并贡献可以相互借鉴的经验，相信未来在训练框架层面会有更多的挑战和机会。Megatron-LLaMA 将会紧密关注社区的发展，并与广大开发者共同推进以下方向：

自适应最优配置选择

更多模型结构或局部设计改动的支持

在更多不同类硬件环境下的极致性能训练解决方案

项目地址：https://github.com/alibaba/Megatron-LLaMA

以上就是淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/967303.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

电脑开不了机的原因以及解决方法步骤？

上一篇 2025年12月1日 19:25:23

获取Raw图像扩展方法

下一篇 2025年12月1日 19:25:28

用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
0000
ScholarCopilot— 滑铁卢与卡内基梅隆大学联合推出的AI学术写作助手

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 沁言学术你的论文写作AI助理，永久免费文献管理工具，认准沁言学术 30 查看详情 ScholarCopilot是什么 scholarcopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队…

程序猿
2025年12月5日 • 用户投稿
0000
RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用，尤…

程序猿
2025年12月3日 • 用户投稿
1000
用户投稿

Eagle 2.5— 英伟达推出的视觉语言模型

eagle 2.5是由英伟达推出的一款专注于长上下文多模态学习的视觉语言模型，拥有8b的参数规模。尽管参数量较小，但其在处理高分辨率图像和长视频序列方面表现出色，性能与参数量更大的qwen 2.5-vl-72b和internvl2.5-78b不相上下。eagle 2.5采用了创新的训练策略，包括信息…

程序猿
2025年12月2日
0000
通义千问怎样用数据解析提示制图_通义千问用数据解析提示制图【数据提示】

答案：通过结构化数据输入与精准提示语设计，引导通义千问解析数据并生成可视化图表。首先将数据整理为表格或JSON格式，明确分类轴与数值轴变量，如{“月份”:[“1月”,”2月”],”销售额”:[120,15…

程序猿
2025年12月2日 • 用户投稿
0000
StableDiffusion怎样用LoRA定制画风_StableDiffusion用LoRA定制画风【画风定制】

通过加载LoRA模型可精准控制Stable Diffusion的生成画风，需将.safetensors文件放入models/loras/目录并重启WebUI；2. 在提示词中使用调用，结合正向提示词描述风格、反向提示词排除干扰，并调整权重值（0.5~1.0）优化效果；3. 可引入Textual In…

程序猿
2025年12月2日 • 用户投稿
1000
用户投稿

亚马逊发布 Bedrock，推出多项新功能，助力企业利用生成式AI技术

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品，这些产品将帮助企业客户利用自己的数据建立人工智能应用程序，并提供更好的安全性和模型的可及性。这些新服务的包括全面推出的Am…

程序猿
2025年12月2日
0000
MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。随着近两年来扩散模型的快速发展，图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型，已经对设计、游戏等领域产生了巨大的影响然而，如何根据给定的文本或其他条件，产生…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

本周，国际计算机视觉大会 ICCV（International Conference on Computer Vision）在法国巴黎开幕。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作为全球计算机视觉领域顶级的学术会议，ICCV 每两…

程序猿
2025年12月2日 • 用户投稿
0000
PyTorch+昇腾共促AI生态创新发展

2023年10月5日（北京时间），pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力，pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来，通过持续的社区技术贡献，昇…

程序猿
2025年12月2日 • 用户投稿
1000
选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

openai最近宣布推出他们的最新一代嵌入模型embedding v3，他们声称这是性能最出色的嵌入模型，具备更高的多语言性能。这一批模型被划分为两种类型：规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
用户投稿

Kimi-Audio— Moonshot AI 开源的音频基础模型

kimi-audio 是由 moonshot ai 推出的开源音频基础模型，专注于音频理解、生成和对话任务。它在超过 1300 万小时的多样化音频数据上进行预训练，具备强大的音频推理和语言理解能力。其核心架构采用混合音频输入（连续声学 + 离散语义标记），结合基于 llm 的设计，支持并行生成文本和…

程序猿
2025年12月2日
0000
马斯克预测 Grok 5 实现通用人工智能概率 10%且还在上升

近日，特斯拉与 spacex 首席执行官马斯克在社交平台上发表言论，预测其旗下人工智能公司 xai 正在研发的 grok 5 大型语言模型，有 10% 的可能性实现通用人工智能（agi），并指出这一概率正持续攀升。上个月，马斯克就曾提出 xAI 或将通过 Grok 5 达成 AGI 的目标，此番言…

程序猿
2025年12月2日 • 用户投稿
0000
哩布哩布AI怎么生成LOFI少女_哩布哩布AI热门风格提示词合集

使用精准提示词、负向过滤及适配模型可提升LOFI少女图像质量。1、输入含日系少女、耳机、城市夜景等元素的完整描述，搭配蓝紫调、低饱和、颗粒感等视觉关键词；2、在负向提示中排除low quality、realistic等干扰项；3、选用Flux潮酷视觉或Qwen_LoRA模型；4、融合拉布布IP特征时…

程序猿
2025年12月2日 • 用户投稿
0000
deeppseek在线使用_deeppseek网页版AI对话平台

deepseek 是近期受到关注的ai大模型之一，但目前官方并未推出名为“deepseek在线使用”或“deepseek网页版ai对话平台”的公开服务。网上一些第三方网站声称提供 deepseek 的在线体验，大多是开发者或技术爱好者基于开源模型搭建的测试页面，并非官方出品，使用时需注意数据隐私和安…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

大模型推理性能差？你必须知道的优化技巧全汇总

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 大模型专栏系列文章从prompt工程开始写作，涵盖了rag检索增强提升、智能体编排和大模型微调，直至如今的部署推理优化，基本覆盖了大模型落地应用的全链路生态研发和优化。这个系列将继续发布关于前沿…

程序猿
2025年12月2日
0000
如何快速部署DeepSeek| 腾讯云TI部署指南

一、为什么选择deepseek与创想鸟hai的结合近年来，随着大模型在多种应用场景中的快速发展，AI工程师们迫切需要一种能够快速、高效且成本低廉的方式来部署和管理模型服务。PHP中文网HAI（高性能AI）平台是一个专为高性能计算和深度学习设计的综合解决方案，提供GPU/CPU资源调度、自动化部署以…

程序猿
2025年12月2日 • 用户投稿
9000

发表回复

登录后才能评论

淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

关于作者

相关推荐

发表回复