一个开源方案,极速预训练650亿参数LLaMA

ai大模型领域,竞争日益激烈,aigc相关企业的融资和并购金额不断创下新高,全球科技巨头纷纷加入这一赛道。然而,ai大模型的高成本问题日益凸显,单次预训练的费用可能高达上千万元。基于现有开源模型如llama进行微调,已不足以满足企业在核心竞争力和多样化商业应用上的需求。因此,如何以低成本定制预训练基础大模型,成为ai大模型发展的关键挑战。

Colossal-AI作为全球最大、最活跃的大模型开发工具和社区,针对当前最常用的LLaMA模型,提供了一套开箱即用的650亿参数预训练方案。该方案可提升训练速度38%,为企业节省大量成本。

一个开源方案,极速预训练650亿参数LLaMA开源地址:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

LLaMA的开源激发了社区的热情

Meta开源的7B到65B参数的LLaMA模型,进一步激励了开发类似ChatGPT的热情,并催生了Alpaca、Vicuna、ColossalChat等微调项目。

然而,LLaMA仅开源了模型权重,且限制商业使用,微调能够增强的知识和能力也有限。对于真正投入大模型开发的企业来说,预训练自己的核心大模型仍是必要的。为此,开源社区进行了多项尝试:

RedPajama:开源可商用的类似LLaMA数据集,但无训练代码和模型OpenLLaMA:开源可商用的类似LLaMA 7B和13B模型,使用EasyLM基于JAX和TPU进行训练Falcon:开源可商用的类似LLaMA 7B和40B模型,但无训练代码然而,对于最主流的PyTorch和GPU生态,仍缺乏高效、可靠、易用的类似LLaMA基础大模型预训练方案。

最佳大模型预训练方案可提升速度38%

针对这一空白与需求,Colossal-AI首次开源了650亿参数的LLaMA低成本预训练方案。与业界其他主流方案相比,该方案可提升预训练速度38%,仅需32张A100/A800即可运行,并且不限制商业使用。

一个开源方案,极速预训练650亿参数LLaMA而原生PyTorch、FSDP等因显存溢出无法运行此任务。Hugging Face accelerate、DeepSpeed、Megatron-LM也未对LLaMA预训练提供官方支持。

开箱即用

1. 安装Colossal-AI

代码语言:javascript代码运行次数:0运行复制“`javascriptgit clone -b example/llama https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530.gitcd ColossalAI# install and enable CUDA kernel fusionCUDA_EXT=1 pip install .

2. 安装其他依赖

代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor">运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd">复制javascript cd examples/language/llama# install other dependenciespip install -r requirements.txt# use flash attentionpip install xformers

3. 数据集

默认数据集togethercomputer/RedPajama-Data-1T-Sample将在首次运行时自动下载,也可通过-d或--dataset指定自定义数据集。

4. 运行命令

已提供7B和65B的测速脚本,仅需根据实际硬件环境设置所用多节点的host name即可运行性能测试。

代码语言:javascript代码运行次数:0运行复制javascriptcd benchmark_65B/gemini_autobash batch12_seq2048_flash_attn.sh

对于实际的预训练任务,使用与速度测试一致,启动相应命令即可,如使用4节点*8卡训练65B的模型。

代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor">运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd">复制```javascriptcolossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a

例如,使用Colossal-AI的gemini_auto并行策略,可便捷实现多机多卡并行训练,降低显存消耗的同时保持高速训练。还可根据硬件环境或实际需求,选择流水并行+张量并行+ZeRO1等复杂并行策略组合。

LLaMA-Factory Online LLaMA-Factory Online

在线大模型训练与微调服务平台

LLaMA-Factory Online 195 查看详情 LLaMA-Factory Online

通过Colossal-AI的Booster Plugins,用户可以便捷自定义并行训练,如选择Low Level ZeRO,Gemini,DDP等并行策略。Gradient checkpointing通过在反向传播时重新计算模型的activation来减少内存使用。通过引入Flash attention机制加速计算并节省显存。用户可以通过命令行参数便捷控制数十个类似的自定义参数,在保持高性能的同时为自定义开发保持了灵活性。

一个开源方案,极速预训练650亿参数LLaMAColossal-AI最新的ShardFormer极大降低了使用多维并行训练LLM的上手成本。现已支持包括LLaMA的多种等主流模型,且原生支持Huggingface/transformers模型库。无需改造模型,即可支持多维并行(流水、张量、ZeRO、DDP等)的各种配置组合,能够在各种硬件配置上都发挥卓越的性能。

AI大模型系统基础设施Colossal-AI

Colossal-AI为该方案提供了核心系统优化与加速能力支持,它由加州伯克利大学杰出教授James Demmel和新加坡国立大学校长青年教授尤洋领导开发。Colossal-AI基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,降低GPU需求等。

Colossal-AI上述解决方案已在某世界500强企业落地应用,在千卡集群性能优异,仅需数周即可完成千亿参数私有大模型预训练。上海AI Lab与商汤等新近发布的InternLM预训练代码也参考了Colossal-AI。

自开源以来,Colossal-AI已经多次在GitHub热榜位列世界第一,获得GitHub Star超3万颗,并成功入选SC、AAAI、PPoPP、CVPR、ISC等国际AI与HPC顶级会议的官方教程,已有上百家企业参与共建Colossal-AI生态。其背后的潞晨科技,近期获得数亿元A轮融资,已在成立18个月内迅速连续完成三轮融资。

开源地址:

https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

参考链接:

https://www.php.cn/link/91ede05a5beeb33ee6c695e3d6d3fd1a

以上就是一个开源方案,极速预训练650亿参数LLaMA的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/472466.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 08:08:31
下一篇 2025年11月8日 08:09:51

相关推荐

  • 如何编写一个容错的 PHP 函数

    编写容错的 php 函数需要明确的参数验证、输入过滤和资源管理。通过错误处理机制(try…catch 块、set_error_handler、error_reporting)捕获异常,并使用 ctype_digit() 验证参数,使用 htmlspecialchars() 和 strip…

    2025年12月9日
    000
  • 眼睛键盘

    650。 2键键盘 难度:中等 主题:数学,动态规划 记事本的屏幕上只有一个字符“a”。每一步您都可以在此记事本上执行以下两个操作之一: 全部复制:您可以复制屏幕上出现的所有字符(不允许部分复制)。粘贴:可以粘贴上次复制的字符。 给定一个整数n,返回在屏幕上精确出现n次字符“a”的最少操作次数. 示…

    2025年12月9日
    000
  • 引入灵活且与框架无关的 Laravel Livewire Modal 包

    引入灵活的 laravel livewire 模态包 laravel 和 livewire 彻底改变了我们用最少的 javascript 构建动态应用程序的方式。但在处理模态时,大多数解决方案往往将我们锁定在特定的设计框架中,例如 bootstrap 或 tailwind css。如果您需要灵活地选…

    2025年12月9日
    000
  • 最大点数与成本

    1937 年。最大积分数量与成本 难度:中等 主题: 数组、动态规划 给你一个 m x n 整数矩阵点(0 索引)。从 0 点开始,您希望最大化可以从矩阵中获得的点数。 要获得积分,您必须在每一行中选择一个单元格。选择坐标 (r, c) 处的单元格将为您的分数添加 分 [r][c]。 但是,如果您选…

    2025年12月9日
    000
  • 阵列中的最大距离

    624。数组中的最大距离 难度:中等 主题:数组,贪心 给你m个数组,每个数组按照升序. 你可以从两个不同的数组中选取两个整数(每个数组选取一个)并计算距离。我们将两个整数 a 和 b 之间的距离定义为它们的绝对差 |a – b|。 返回最大距离. 示例1: 输入:数组 = [[1,2,…

    2025年12月9日
    000
  • 什么是 PHP?为什么要学习它?

    如果您刚开始涉足 Web 开发领域,您很可能已经听说过 PHP。但 PHP 到底是什么?为什么它被如此广泛地使用?在这篇文章中,我们将探讨 PHP 成为开发人员的热门选择的原因、它的主要应用程序,以及为什么您应该考虑学习这种语言。 什么是 PHP? PHP最初代表“个人主页”,现在被称为“超文本预处…

    2025年12月9日
    000
  • 组合总和 II

    40。组合总和 II 难度:中等 主题: 数组,回溯 给定一组候选数字(candidates)和一个目标数字(target),找到候选数字中所有候选数字总和为目标的唯一组合。 候选中的每个号码在组合中只能使用一次。 注意: 解决方案集不能包含重复的组合。 示例1: 输入: 候选人 = [10,1,2…

    2025年12月9日
    000
  • 查找第 K 个最小对距离

    719。找到第 k 个最小的对距离 难度: 难 主题: 数组、两个指针、二分查找、排序 整数对的距离定义为a和b之间的绝对差。 给定一个整数数组 nums 和一个整数 k,返回所有对 nums[i] 和 nums[j] 中最小的距离,其中 0 . 示例1: 输入: nums = [1,3,1], k…

    2025年12月9日
    000
  • 流中的第 K 个最大元素

    703。流中的第 k 个最大元素 难度:简单 主题: 树、设计、二叉搜索树、堆(优先级队列)、二叉树、数据流 设计一个类来查找流中的第 kth 最大元素。请注意,它是排序顺序中第 kth 最大元素,而不是第 k 不同元素。 实现kthlargest类: kthlargest(int k, int[]…

    2025年12月9日
    000
  • Erath:具有无服务器存储和灵活编辑器的免费静态网页托管

    厌倦了需要登录、占用带宽并让您为复杂的文件上传而苦苦挣扎的笨重网络托管平台? Erath 来改变游戏规则。 Erath 提供终身免费静态网页托管,以及无服务器存储和用户友好的编辑器,使其成为任何希望快速轻松部署静态网站的人的完美解决方案。 这就是 Erath 脱颖而出的原因: 免费静态网页托管:不再…

    2025年12月9日
    000
  • 断开岛屿连接的最少天数

    1568。断开岛屿连接的最短天数 难度: 难 主题: 数组、深度优先搜索、广度优先搜索、矩阵、强连通分量 给你一个 m x n 二进制网格,其中 1 代表土地,0 代表水。 岛屿 是最大4 个方向(水平或垂直)相连的 1 组。 如果我们有恰好有一个岛,则称网格是连接,否则称断开连接。 有一天,我们可…

    2025年12月9日
    000
  • 如何tomcat支持php

    Tomcat 支持 PHP 的方法有使用 Tomcat 扩展模块、使用 FastCGI 以及配置 mod_jk。其中:使用 Tomcat 扩展模块:下载 TNL 模块并配置 server.xml 文件,然后重新启动 Tomcat。使用 FastCGI:安装 PHP FastCGI,配置 server…

    2025年12月9日
    000
  • CSV 文件处理基准测试:Golang、NestJS、PHP、Python

    介绍 高效处理大型 csv 文件是许多应用程序中的常见要求,从数据分析到 etl(提取、转换、加载)过程。在本文中,我想对四种流行编程语言(golang、带有 nestjs 的 nodejs、php 和 python)在 macbook pro m1 上处理大型 csv 文件的性能进行基准测试。我的…

    2025年12月9日 好文分享
    000
  • 如何更php源码网页地

    要美化 PHP 源码,可以采取以下步骤:使用代码高亮语法;缩进和换行便于阅读;添加注释说明代码逻辑;利用调试工具查找错误;使用版本控制系统管理代码;优化性能减少加载时间;加强安全性防止漏洞;将代码模块化、组织化;编写文档解释代码功能;使用 IDE 并参与代码审查。 如何更php源码网页 1. 使用代…

    2025年12月9日
    000
  • 有哪些php社区

    PHP 社区为开发人员提供支持、资源和连接:官方资源:PHP.net(官方网站)、PHP Foundation(非营利组织)论坛和讨论组:Stack Overflow(问答社区)、PHPBB.com(论坛)、IRC(实时聊天频道)社交媒体:Twitter(话题)、GitHub(项目和讨论)、Link…

    2025年12月9日
    000
  • php需要哪些工具

    PHP 开发所需工具包括:文本编辑器或 IDE(如 Sublime Text、PHPStorm)Web 服务器(如 Apache、Nginx)数据库管理系统(如 MySQL、PostgreSQL)PHP 解释器调试工具(如 XDebug、Var-Dump)版本控制系统(如 Git、Subversio…

    2025年12月9日
    000
  • Symfony Station 公报 — 八月 看看 Symfony、Drupal、PHP、Cyber​​sec 和 Fediverse 新闻!

    此公报最初出现在 symfony station 上。 欢迎来到本周的 Symfony Station 公报。这是您对 Symfony 和 PHP 开发社区中关注保护民主的重要新闻的评论。这就需要一场针对大型科技的固执己见的巴特勒式圣战,并为开源和联邦宇宙传播福音。我们还涵盖网络安全领域。没有安全和…

    2025年12月9日
    000
  • php包括哪些课程

    PHP 课程包括:1. 基础概念;2. PHP 语法;3. 数据类型和变量;4. 流程控制语句;5. 函数;6. 数组;7. Web 开发;8. 表单处理;9. 会话管理;10. 数据库连接和查询;11. 面向对象编程;12. 类和对象;13. 继承;14. 多态;15. 高级主题,如错误处理、文件…

    2025年12月9日
    000
  • php网站哪些软件

    PHP 网站必备软件:Web 服务器:Apache、Nginx、IIS数据库管理系统:MySQL、PostgreSQL、MongoDBPHP 框架:Laravel、Symfony、CodeIgniter集成开发环境:PHPStorm、Visual Studio Code、Sublime Text版本…

    2025年12月9日
    000
  • php需要会哪些

    PHP程序员必备技能包括:HTML和CSS:网站结构和视觉呈现基础。PHP语法:基本PHP概念,如变量、函数、条件语句和循环。数据库管理:使用数据库系统存储和管理数据。中间级技能:面向对象编程、框架、版本控制。高级技能:性能优化、安全措施、扩展、RESTful API、DevOps工具。软技能:问题…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信