田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

meta fair 田渊栋参与的研究项目在上个月获得了广泛好评。在他们的论文《mobilellm: optimizing sub-billion parameter language models for on-device use cases》中,他们开始探讨如何优化10亿以下参数的小型模型,旨在实现在移动设备上运行大型语言模型的目标。

3 月 6 日,田渊栋团队发布了最新的研究成果,这次专注于提高LLM内存的效率。除了田渊栋本人,研究团队还包括来自加州理工学院、德克萨斯大学奥斯汀分校以及CMU的研究人员。这项研究旨在进一步优化LLM内存的性能,为未来的技术发展提供支持和指导。

他们联合提出了一种名为 GaLore(Gradient Low-Rank Projection)的训练策略,这种策略允许全参数学习,相比于 LoRA 等常见的低秩自适应方法,GaLore具有更高的内存效率。

这项研究首次表明,在配备 24GB 内存的消费级 GPU(例如 NVIDIA RTX 4090)上,可以成功地进行 7B 模型的预训练,而无需使用模型并行、检查点或卸载策略。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

论文地址:https://arxiv.org/abs/2403.03507

论文标题:GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

盘古大模型 盘古大模型

华为云推出的一系列高性能人工智能大模型

盘古大模型 35 查看详情 盘古大模型

接下来我们看看文章主要内容。

当前,大型语言模型(LLM)在多个领域展现出卓越的潜力,但我们也必须正视一个现实问题,那就是预训练和微调LLM不仅需要大量的计算资源,还需要大量的内存支持。

LLM 对内存的需求不仅包括以亿计算的参数,还包括梯度和 Optimizer States(例如 Adam 中的梯度动量和方差),这些参数可能大于存储本身。举例来说,使用单个批大小且从头开始预训练的 LLaMA 7B ,需要至少 58 GB 内存(14 GB 用于可训练参数,42 GB 用于 Adam Optimizer States 和权重梯度,2 GB 用于激活)。这使得训练 LLM 在消费级 GPU(例如具有 24GB 内存的 NVIDIA RTX 4090)上变得不可行。

为了解决上述问题,研究人员不断开发各种优化技术,以减少预训练和微调期间的内存使用。

该方法在 Optimizer States 下将内存使用量减少了 65.5%,同时还能保持在 LLaMA 1B 和 7B 架构上使用最多 19.7B token 的 C4 数据集进行预训练的效率和性能,以及在 GLUE 任务上微调 RoBERTa 的效率和性能。与 BF16 基准相比,8-bit GaLore 进一步减少了优化器内存达 82.5%,总训练内存减少了 63.3%。

看到这项研究后,网友表示:「是时候忘记云、忘记 HPC 了,有了 GaLore,所有的 AI4Science 都将在 2000 美元的消费级 GPU 上完成。」

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

田渊栋表示:「有了 GaLore,现在可以在具有 24G 内存的 NVidia RTX 4090s 中预训练 7B 模型了。

我们没有像 LoRA 那样假设低秩权重结构,而是证明权重梯度自然是低秩的,因此可以投影到(变化的)低维空间中。因此,我们同时节省了梯度、Adam 动量和方差的内存。

因此,与 LoRA 不同,GaLore 不会改变训练动态,可用于从头开始预训练 7B 模型,无需任何内存消耗的预热。GaLore 也可用于进行微调,产生与 LoRA 相当的结果」。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

方法介绍

前面已经提到,GaLore 是一种允许全参数学习的训练策略,但比常见的低秩自适应方法(例如 LoRA)更节省内存。GaLore 关键思想是利用权重矩阵 W 的梯度田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型缓慢变化的低秩结构,而不是试图将权重矩阵直接近似为低秩形式。

本文首先从理论上证明了梯度矩阵 G 在训练过程中会变成低秩,在理论的基础上,本文用 GaLore 来计算两个投影矩阵 田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型将梯度矩阵 G 投影成低秩形式 P^⊤GQ。在这种情况下,依赖于组件梯度统计的 Optimizer States 的内存成本可以大大减少。如表 1 所示,GaLore 的内存效率比 LoRA 更高。实际上,与 LoRA 相比,在预训练期间,这可减少高达 30% 的内存。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

本文证明了 GaLore 在预训练和微调方面表现良好。当在 C4 数据集上预训练 LLaMA 7B 时,8-bit GaLore 结合了 8-bit 优化器和逐层权重更新技术,实现了与全秩相当的性能,并且 optimizer state 的内存成本不到 10%。

值得注意的是,对于预训练,GaLore 在整个训练过程中保持低内存,而不需要像 ReLoRA 那样进行全秩训练。得益于 GaLore 的内存效率,这是首次可以在具有 24GB 内存的单个 GPU(例如,在 NVIDIA RTX 4090 上)上从头开始训练 LLaMA 7B,而无需任何昂贵的内存卸载技术(图 1)。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

作为一种梯度投影方法,GaLore 与优化器的选择无关,只需两行代码即可轻松插入现有优化器,如算法 1 所示。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

下图为将 GaLore 应用于 Adam 的算法:

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

实验及结果

研究者对 GaLore 的预训练和 LLM 的微调进行了评估。所有实验均在英伟达 A100 GPU 上进行。

为了评估其性能,研究者应用 GaLore 在 C4 数据集上训练基于 LLaMA 的大型语言模型。C4 数据集是 Common Crawl 网络抓取语料库的一个巨大的净化版本,主要用于预训练语言模型和单词表征。为了最好地模拟实际的预训练场景,研究者在不重复数据的情况下,对足够大的数据量进行训练,模型大小范围可达 70 亿个参数。

本文沿用了 Lialin 等人的实验设置,采用了基于 LLaMA3 的架构,带有 RMSNorm 和 SwiGLU 激活。对于每种模型大小,除了学习率之外,他们使用了相同的超参数集,并以 BF16 格式运行所有实验,以减少内存使用,同时在计算预算相同的情况下调整每种方法的学习率,并报告最佳性能。

此外,研究者使用 GLUE 任务作为 GaLore 与 LoRA 进行内存高效微调的基准。GLUE 是评估 NLP 模型在各种任务中性能的基准,包括情感分析、问题解答和文本关联。

本文首先使用 Adam 优化器将 GaLore 与现有的低秩方法进行了比较,结果如表 2 所示。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

研究者证明,GaLore 可以应用于各种学习算法,尤其是内存高效的优化器,以进一步减少内存占用。研究者将 GaLore 应用于 AdamW、8 bit Adam 和 Adafactor 优化器。他们采用一阶统计的 Adafactor,以避免性能下降。

实验在具有 10K 训练步数的 LLaMA 1B 架构上对它们进行了评估,调整了每种设置的学习率,并报告了最佳性能。如图 3 所示,下图表明,GaLore 可适用于流行的优化器,例如 AdamW、8-bit Adam 和 Adafactor。此外,引入极少数超参数不会影响 GaLore 的性能。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

如表 4 所示,在大多数任务中,GaLore 都能以更少的内存占用获得比 LoRA 更高的性能。这表明,GaLore 可以作为一种全栈内存高效训练策略,用于 LLM 预训练和微调。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

如图 4 所示,与 BF16 基准和 8  bit Adam 相比,8 bit GaLore 所需的内存要少得多,在预训练 LLaMA 7B 时仅需 22.0G 内存,且每个 GPU 的 token 批量较小(最多 500 个 token)。

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

更多技术细节,请阅读论文原文。

以上就是田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425770.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:30:29
下一篇 2025年11月7日 11:35:09

相关推荐

  • HTML如何计算页面FPS_性能监测实现方法【技巧】

    可通过五种方法实时监测网页FPS:一、requestAnimationFrame计算帧间隔;二、PerformanceObserver监听paint事件;三、chrome://tracing离线分析;四、performance.getEntriesByType(‘frame’…

    2025年12月23日
    000
  • html 如何置顶_设置HTML元素始终置顶显示【始终】

    可通过CSS的position: fixed、position: sticky、JavaScript动态监听滚动、transform + fixed组合及CSS容器查询五种方案实现元素滚动置顶,各适用于不同兼容性与交互需求场景。 如果您希望某个HTML元素在页面滚动时始终保持在视口顶部位置,可通过C…

    2025年12月23日
    200
  • JavaScript教程:如何准确获取HTML中被点击按钮的Value值

    本文详细讲解如何在JavaScript中准确获取用户点击的HTML按钮的`value`属性,尤其当页面存在多个具有相同类名的按钮时。通过使用`addEventListener`方法为每个按钮绑定事件监听器,并利用事件处理函数内部的`this`关键字,我们可以轻松地引用到被点击的特定按钮元素,从而获取…

    2025年12月23日
    000
  • 深入理解Shadow DOM样式隔离:解决用户代理样式与继承冲突

    shadow dom的样式隔离特性导致全局%ignore_a_1%规则无法直接作用于其内部元素。特别是对于可继承属性,用户代理的默认样式可能覆盖外部继承值。本文将详细探讨shadow dom内样式冲突的原理,并提供两种主要解决方案:利用`inherit`关键字确保可继承属性正确传递,以及通过`ado…

    2025年12月23日
    000
  • JavaScript实现单选按钮联动:选择时禁用其他关联输入框的教程

    本教程详细讲解如何通过javascript实现单选按钮的联动效果。当用户选择一个单选按钮时,其关联的输入框将被启用并聚焦,同时禁用其他未选中的单选按钮及其对应的输入框。文章强调了正确的html结构(特别是`name`属性和`label`的使用)以及事件委托机制,以提升用户体验、确保数据完整性和页面可…

    2025年12月23日
    000
  • 使用JavaScript通过事件委托和数据属性实现动态内容更新

    本文详细介绍了如何利用javascript的事件委托机制和html的`data-*`属性,高效地管理和更新网页上的动态内容。通过一个具体案例,演示了如何根据单选按钮的选择,在同一显示区域内切换显示不同的文本和数值,同时保持代码的简洁性和可维护性,并覆盖了默认值设置、数值与文本混合处理等常见需求。 在…

    2025年12月23日
    000
  • JavaScript DOM操作:点击关联元素获取目标文本内容的教程

    本教程详细介绍了如何通过JavaScript处理用户点击事件,并结合DOM的 closest() 和 querySelector() 方法,从复杂的HTML结构中准确获取目标元素的文本内容。文章强调了使用 addEventListener() 进行事件绑定、避免重复ID以及高效DOM遍历的最佳实践,…

    2025年12月23日
    000
  • 优化多元素交互:JavaScript事件委托实践指南

    本教程旨在解决javascript中为多个相似元素添加事件监听器时,仅最后一个元素生效的常见问题。文章将深入分析传统方法的局限性,并详细介绍如何利用事件委托(event delegation)这一高效策略,通过单个监听器管理父元素内所有子元素的交互行为,从而提升代码性能、简化维护,并确保事件处理的准…

    2025年12月23日
    000
  • JavaScript事件委托与数据属性实现单ID多区域动态内容更新

    本文旨在教授如何利用javascript的事件委托机制和html5的`data-*`属性,实现在一个页面上通过单个id动态更新不同区域的内容。通过监听父元素的`change`事件并结合目标元素的自定义数据属性,可以高效、灵活地根据用户选择(例如单选按钮)来更新页面上的显示文本和数值,避免为每个交互元…

    2025年12月23日
    000
  • vs code运行html慢怎么办_解vs code运行html慢问题【技巧】

    首先禁用非必要扩展如自动保存和实时预览类插件,再使用Live Server右键启动HTML实现热重载,配合无痕模式浏览器排除缓存干扰,接着在设置中排除node_modules等文件夹监视并关闭自动保存,最后通过任务管理器检查CPU和内存占用,确保系统资源充足,从而全面提升VS Code运行HTML的…

    2025年12月23日
    000
  • 在Vue应用中动态更新Chart.js折线图数据

    本教程旨在解决在Vue组件中动态更新Chart.js折线图数据不生效的问题。核心在于理解Chart.js实例并非Vue响应式系统的一部分,因此需通过Vue的`watch`机制监听数据变化,并在子组件中获取Chart实例,手动调用`chart.update()`方法来重新渲染图表,确保数据变更能够实时…

    2025年12月23日
    000
  • 在同一网页中实现多个独立图片上传与显示

    本教程旨在解决在同一网页中实现多个独立图片上传功能时,因HTML元素ID重复导致的图片显示冲突问题。我们将深入分析ID的唯一性原则,并提供基于类名(Class)和JavaScript事件监听的优化解决方案,确保每个上传区域都能独立处理图片,避免相互影响,从而提升网页交互的健壮性和用户体验。 问题剖析…

    2025年12月23日 好文分享
    000
  • 前端交互优化:基于单选按钮选择状态控制提交按钮的启用与禁用

    本教程详细讲解如何使用javascript实现提交按钮的条件启用与禁用。核心在于初始禁用提交按钮,并在用户选择特定单选按钮后才启用。文章纠正了常见的javascript事件监听和布尔值使用错误,并重点介绍了利用事件委托机制优化代码,提高性能和可维护性,确保用户界面交互的流畅性和逻辑性。 在现代Web…

    2025年12月23日
    000
  • JavaScript代码重构:优化重复逻辑与提升可维护性

    本文旨在探讨如何通过数据驱动、事件委托和函数封装等策略,对前端javascript代码中重复的ui交互逻辑进行重构。通过将元素配置数据化,并利用事件委托机制集中处理事件,结合一系列通用辅助函数,可以显著减少代码量,提高代码的可读性、可维护性和可扩展性,从而构建更健壮、更易于管理的前端应用。 在前端开…

    2025年12月23日
    000
  • 动态生成HTML表格:优化JavaScript数据展示与导出

    本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想,我们将数据与视图逻辑分离,首先将表格内容组织为JavaScript对象数组,然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

    2025年12月23日
    000
  • HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

    HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能:1. 语义化标签优化渲染效率;2. Web Storage减少网络请求;3. Canvas/SVG降低资源加载量;4. Service Worker实现离线缓存;5. 原…

    2025年12月23日
    000
  • JavaScript实现交互式按钮:动态样式切换与类名管理的最佳实践

    本教程旨在解决javascript中动态修改元素样式和类名时常遇到的问题,特别是如何实现按钮的选中与取消选中功能。文章将深入分析传统方法的不足,例如事件监听器绑定时机和`classname`属性的局限性,并推荐使用单一事件监听器结合`classlist` api进行条件判断,从而实现更健壮、可维护的…

    2025年12月23日
    000
  • React Select 选项绑定复杂对象值的最佳实践

    在react中处理“组件选项绑定复杂对象值时,直接通过`e.target.value`获取将导致数据丢失,因为原生dom的`value`属性仅支持字符串。本文将深入探讨这一常见问题,并提供一种推荐的解决方案:通过将选项的唯一标识符(如`label`)作为“的`value`属性…

    2025年12月23日
    000
  • 使用原生JavaScript管理和展示动态内容的模态框

    本教程将指导您如何使用原生javascript高效地实现动态内容的模态框。通过采用单个模态框、事件委托和html数据属性的策略,您可以避免创建多个重复的模态框元素,从而优化dom结构并简化代码逻辑。文章将详细介绍html、css和javascript的实现细节,确保模态框能够根据不同按钮的点击动态加…

    2025年12月23日
    000
  • 如何解决在线编辑HTML时内存溢出的处理方法

    在线编辑HTML内存溢出主因是DOM复杂、资源过多或JS循环,需简化结构、优化脚本、控制加载并用工具监控内存。 在线编辑HTML时出现内存溢出,通常是因为页面中加载了过多资源、DOM结构过于复杂或存在JavaScript无限循环等问题。这类问题会拖慢浏览器响应,甚至导致标签页崩溃。解决方法需要从优化…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信