田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

meta fair 田渊栋参与的研究项目在上个月获得了广泛好评。在他们的论文《mobilellm: optimizing sub-billion parameter language models for on-device use cases》中,他们开始探讨如何优化10亿以下参数的小型模型,旨在实现在移动设备上运行大型语言模型的目标。

3 月 6 日,田渊栋团队发布了最新的研究成果,这次专注于提高LLM内存的效率。除了田渊栋本人,研究团队还包括来自加州理工学院、德克萨斯大学奥斯汀分校以及CMU的研究人员。这项研究旨在进一步优化LLM内存的性能,为未来的技术发展提供支持和指导。

他们联合提出了一种名为 GaLore(Gradient Low-Rank Projection)的训练策略,这种策略允许全参数学习,相比于 LoRA 等常见的低秩自适应方法,GaLore具有更高的内存效率。

这项研究首次表明,在配备 24GB 内存的消费级 GPU(例如 NVIDIA RTX 4090)上,可以成功地进行 7B 模型的预训练,而无需使用模型并行、检查点或卸载策略。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

论文地址:https://arxiv.org/abs/2403.03507

论文标题:GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

盘古大模型 盘古大模型

华为云推出的一系列高性能人工智能大模型

盘古大模型 35 查看详情 盘古大模型

接下来我们看看文章主要内容。

当前,大型语言模型(LLM)在多个领域展现出卓越的潜力,但我们也必须正视一个现实问题,那就是预训练和微调LLM不仅需要大量的计算资源,还需要大量的内存支持。

LLM 对内存的需求不仅包括以亿计算的参数,还包括梯度和 Optimizer States(例如 Adam 中的梯度动量和方差),这些参数可能大于存储本身。举例来说,使用单个批大小且从头开始预训练的 LLaMA 7B ,需要至少 58 GB 内存(14 GB 用于可训练参数,42 GB 用于 Adam Optimizer States 和权重梯度,2 GB 用于激活)。这使得训练 LLM 在消费级 GPU(例如具有 24GB 内存的 NVIDIA RTX 4090)上变得不可行。

为了解决上述问题,研究人员不断开发各种优化技术,以减少预训练和微调期间的内存使用。

该方法在 Optimizer States 下将内存使用量减少了 65.5%,同时还能保持在 LLaMA 1B 和 7B 架构上使用最多 19.7B token 的 C4 数据集进行预训练的效率和性能,以及在 GLUE 任务上微调 RoBERTa 的效率和性能。与 BF16 基准相比,8-bit GaLore 进一步减少了优化器内存达 82.5%,总训练内存减少了 63.3%。

看到这项研究后,网友表示:「是时候忘记云、忘记 HPC 了,有了 GaLore,所有的 AI4Science 都将在 2000 美元的消费级 GPU 上完成。」

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

田渊栋表示:「有了 GaLore,现在可以在具有 24G 内存的 NVidia RTX 4090s 中预训练 7B 模型了。

我们没有像 LoRA 那样假设低秩权重结构,而是证明权重梯度自然是低秩的,因此可以投影到(变化的)低维空间中。因此,我们同时节省了梯度、Adam 动量和方差的内存。

因此,与 LoRA 不同,GaLore 不会改变训练动态,可用于从头开始预训练 7B 模型,无需任何内存消耗的预热。GaLore 也可用于进行微调,产生与 LoRA 相当的结果」。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

方法介绍

前面已经提到,GaLore 是一种允许全参数学习的训练策略,但比常见的低秩自适应方法(例如 LoRA)更节省内存。GaLore 关键思想是利用权重矩阵 W 的梯度田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型缓慢变化的低秩结构,而不是试图将权重矩阵直接近似为低秩形式。

本文首先从理论上证明了梯度矩阵 G 在训练过程中会变成低秩,在理论的基础上,本文用 GaLore 来计算两个投影矩阵 田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型将梯度矩阵 G 投影成低秩形式 P^⊤GQ。在这种情况下,依赖于组件梯度统计的 Optimizer States 的内存成本可以大大减少。如表 1 所示,GaLore 的内存效率比 LoRA 更高。实际上,与 LoRA 相比,在预训练期间,这可减少高达 30% 的内存。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

本文证明了 GaLore 在预训练和微调方面表现良好。当在 C4 数据集上预训练 LLaMA 7B 时,8-bit GaLore 结合了 8-bit 优化器和逐层权重更新技术,实现了与全秩相当的性能,并且 optimizer state 的内存成本不到 10%。

值得注意的是,对于预训练,GaLore 在整个训练过程中保持低内存,而不需要像 ReLoRA 那样进行全秩训练。得益于 GaLore 的内存效率,这是首次可以在具有 24GB 内存的单个 GPU(例如,在 NVIDIA RTX 4090 上)上从头开始训练 LLaMA 7B,而无需任何昂贵的内存卸载技术(图 1)。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

作为一种梯度投影方法,GaLore 与优化器的选择无关,只需两行代码即可轻松插入现有优化器,如算法 1 所示。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

下图为将 GaLore 应用于 Adam 的算法:

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

实验及结果

研究者对 GaLore 的预训练和 LLM 的微调进行了评估。所有实验均在英伟达 A100 GPU 上进行。

为了评估其性能,研究者应用 GaLore 在 C4 数据集上训练基于 LLaMA 的大型语言模型。C4 数据集是 Common Crawl 网络抓取语料库的一个巨大的净化版本,主要用于预训练语言模型和单词表征。为了最好地模拟实际的预训练场景,研究者在不重复数据的情况下,对足够大的数据量进行训练,模型大小范围可达 70 亿个参数。

本文沿用了 Lialin 等人的实验设置,采用了基于 LLaMA3 的架构,带有 RMSNorm 和 SwiGLU 激活。对于每种模型大小,除了学习率之外,他们使用了相同的超参数集,并以 BF16 格式运行所有实验,以减少内存使用,同时在计算预算相同的情况下调整每种方法的学习率,并报告最佳性能。

此外,研究者使用 GLUE 任务作为 GaLore 与 LoRA 进行内存高效微调的基准。GLUE 是评估 NLP 模型在各种任务中性能的基准,包括情感分析、问题解答和文本关联。

本文首先使用 Adam 优化器将 GaLore 与现有的低秩方法进行了比较,结果如表 2 所示。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

研究者证明,GaLore 可以应用于各种学习算法,尤其是内存高效的优化器,以进一步减少内存占用。研究者将 GaLore 应用于 AdamW、8 bit Adam 和 Adafactor 优化器。他们采用一阶统计的 Adafactor,以避免性能下降。

实验在具有 10K 训练步数的 LLaMA 1B 架构上对它们进行了评估,调整了每种设置的学习率,并报告了最佳性能。如图 3 所示,下图表明,GaLore 可适用于流行的优化器,例如 AdamW、8-bit Adam 和 Adafactor。此外,引入极少数超参数不会影响 GaLore 的性能。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

如表 4 所示,在大多数任务中,GaLore 都能以更少的内存占用获得比 LoRA 更高的性能。这表明,GaLore 可以作为一种全栈内存高效训练策略,用于 LLM 预训练和微调。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

如图 4 所示,与 BF16 基准和 8  bit Adam 相比,8 bit GaLore 所需的内存要少得多,在预训练 LLaMA 7B 时仅需 22.0G 内存,且每个 GPU 的 token 批量较小(最多 500 个 token)。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

更多技术细节,请阅读论文原文。

以上就是田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425770.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:30:29
下一篇 2025年11月7日 11:35:09

相关推荐

  • JavaScript动态生成日历式水平日期布局的优化实践

    本教程将指导如何使用javascript高效、正确地动态生成html表格中的日历式水平日期布局。重点解决直接操作`innerhtml`时遇到的标签闭合问题,通过数组构建html字符串来避免浏览器解析错误,并利用事件委托机制优化动态生成元素的事件处理,确保生成结构清晰、功能完善的日期展示。 在前端开发…

    2025年12月6日 web前端
    000
  • Java中char与String的字节表示深度解析

    本文深入探讨java中`char`类型和`string`对象在内存中的字节表示及其与字符编码的关系。`char`固定占用2字节并采用utf-16编码,而`string.getbytes()`方法返回的字节数组长度则取决于所使用的字符集,这正是导致常见混淆的关键。文章将通过示例代码和详细解释,阐明不同…

    2025年12月6日 java
    000
  • vivo X100拍照模糊怎么处理 vivo X100相机优化技巧

    先清洁镜头并检查设置,再清除相机缓存与数据,更新系统并优化性能,最后使用专业模式提升画质,多数拍照模糊问题可解决。 vivo X100拍照模糊,多数情况能通过简单操作解决。先别急着送修,从清洁、设置到系统维护一步步排查,通常都能恢复清晰画质。 检查镜头与基础设置 模糊问题往往出在最容易被忽略的地方。…

    2025年12月6日 手机教程
    000
  • 如何在mysql中优化GROUP BY分组查询

    答案:优化GROUP BY需创建合适索引(如WHERE与GROUP BY字段的复合索引)、使用ORDER BY NULL避免隐式排序、通过WHERE提前过滤数据、避免在分组字段使用函数、利用覆盖索引减少回表、控制分组结果大小并监控临时表使用,结合EXPLAIN分析执行计划持续优化。 在MySQL中优…

    2025年12月6日 数据库
    000
  • 如何在mysql中设置最大并发连接

    答案是通过调整max_connections参数设置MySQL最大并发连接数。默认151,可临时用SET GLOBAL命令修改,或在配置文件[mysqld]段落添加max_connections持久生效,修改后需重启服务,并注意内存消耗与系统连接限制。 在 MySQL 中设置最大并发连接数,主要是通…

    2025年12月6日 数据库
    000
  • qq浏览器纯净版和普通版有什么区别_qq浏览器不同版本功能对比

    QQ浏览器纯净版与普通版的核心区别在于广告、首页布局和功能精简。1、纯净版移除大部分广告,提供更干净的浏览体验;2、默认新标签页为简洁模式,不推送资讯内容;3、精简预装插件,降低内存占用;4、两版本均支持完整的数据同步功能,账号服务无差异。 如果您在选择QQ浏览器时对纯净版与普通版的功能差异感到困惑…

    2025年12月6日 电脑教程
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • ThinkPHP服务容器(Container)与依赖注入

    thinkphp的服务容器和依赖注入通过集中管理对象创建和降低对象耦合度,提升了代码的可维护性和灵活性。1.服务容器负责对象的创建和生命周期管理。2.依赖注入通过传递依赖对象,降低了代码耦合度。3.使用时需注意性能、复杂性和学习曲线。4.优化方法包括延迟加载、单例模式和接口实现分离。 在开发过程中,…

    2025年12月5日
    000
  • Word提示内存或磁盘空间不足怎么解决 快速解决方法在这

    在使用 word 编辑或保存文件时,有时会弹出令人困扰的提示:“内存或磁盘空间不足,无法完成操作”。特别是当你正在处理内容较多的文档、插入大量图片或使用复杂格式时,这类问题更容易出现。那么,这个错误背后的真正原因是什么?又该如何有效应对?本文将为你深入剖析,并提供切实可行的解决方法。 一、理解错误提…

    2025年12月5日 电脑教程
    000
  • PHP教程:在条件判断中安全地输出文件内容

    本教程详细介绍了如何在php中根据特定条件(例如白名单验证)安全地读取并输出文件内容。通过file_get_contents()函数结合__dir__魔术常量,您可以高效地将外部文件的文本或脚本内容作为php响应的一部分,从而实现动态内容交付或增强应用程序的安全性。 PHP作为一种强大的服务器端脚本…

    2025年12月5日
    000
  • Java中如何生成XML 详解DOM方式创建XML文档

    使用dom方式创建xml文档的步骤如下:1. 创建documentbuilderfactory对象;2. 创建documentbuilder对象;3. 创建document对象;4. 创建根元素并添加到document对象;5. 创建子元素和文本节点;6. 将元素逐级添加到dom树;7. 使用tra…

    2025年12月5日 java
    000
  • PHP与SQLite数据库交互时如何优化查询的处理方法?

    合理使用索引能显著提升查询速度,但避免频繁更新字段加索引;2. 使用预处理语句减少重复解析开销,提高安全性与效率;3. 控制查询范围避免全表扫描,指定字段并用limit和offset分页;4. 合理使用事务合并写操作,提高批量数据处理效率。在sqlite中优化php查询需从索引设计、预处理、查询控制…

    2025年12月5日 后端开发
    000
  • Java中XML怎么处理 详解Java DOM和SAX解析XML的方法

    java中处理xml主要有dom和sax两种方法。1.dom一次性加载整个文档到内存,形成树状结构,便于访问和修改,但内存消耗大,适合小文件;2.sax是事件驱动,逐行读取,内存占用小,适合大文件,但操作较复杂。此外还有jaxb、stax和xpath等方法,选择取决于文件大小、操作需求、性能及开发效…

    2025年12月5日 java
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 为什么谷歌浏览器总是提示“网页无响应”?

    当您在浏览网页时,谷歌浏览器弹出“网页无响应”的提示,意味着当前的标签页已经停止响应,无法进行任何操作,这无疑会中断您的工作流程。这个问题通常不是由单一原因引起的,它可能与特定网页的脚本、过多的后台活动、扩展程序冲突或浏览器缓存有关。本文将分析导致此问题的几个主要因素,并提供相应的排查和解决方法,帮…

    2025年12月5日
    000
  • 如何在Laravel中优化数据库查询

    优化laravel数据库查询的核心在于减少查询次数、优化语句、使用缓存和合理索引。1. 使用eager loading(如with()方法)避免n+1问题,减少查询次数;2. 选择特定列而非select *,降低i/o负担;3. 必要时使用原生查询并绑定参数防止注入;4. 利用缓存(如cache::…

    2025年12月5日
    000
  • 如何自动加载类?PSR-4规范详细教程

    psr-4规范通过命名空间与文件路径的映射规则实现了php类的自动加载,终结了传统require带来的维护难题。1. 它强制使用命名空间解决类名冲突;2. 通过命名空间前缀与基目录的映射实现类文件的自动定位;3. 支持按需加载提升性能;4. 成为php社区标准促进生态统一。手动实现的关键包括注册sp…

    2025年12月5日 后端开发
    000
  • Java中如何转换图片格式 解析不同格式的转换

    java中转换图片格式的核心方法是使用javax.imageio或第三方库如twelvemonkeys imageio进行读取与保存。1. 使用javax.imageio可实现基本的格式转换,例如将png转为jpg;2. twelvemonkeys imageio支持更多格式如webp,并提升性能;…

    2025年12月5日 java
    000
  • js如何检测代码性能 代码性能监控的5种实现方式

    js代码性能检测是找出代码瓶颈并优化以提升网页或应用运行速度的过程。主要方法包括:1. 使用浏览器开发者工具的performance面板分析执行时间线,识别高耗时函数和频繁dom操作;2. 使用console.time()和console.timeend()快速定位特定代码段的执行时间;3. 利用c…

    2025年12月5日 web前端
    000

发表回复

登录后才能评论
关注微信