LLaMA微调显存需求减半,清华提出4比特优化器

模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。

4 比特优化器在众多预训练和微调任务上进行了实验,在保持准确率无损的情况下可将微调 LLaMA-7B 的显存开销降低多达 57%。

论文:https://arxiv.org/abs/2309.01507

代码:https://github.com/thu-ml/low-bit-optimizers

模型训练的内存瓶颈

从 GPT-3,Gopher 到 LLaMA,大模型有更好的性能已成为业界的共识。但相比之下,单个 GPU 的显存大小却增长缓慢,这让显存成为了大模型训练的主要瓶颈,如何在有限的 GPU 内存下训练大模型成为了一个重要的难题。

为此,我们首先需要明确消耗显存的来源有哪些。事实上来源有三类,分别是:

1. 「数据显存」,包括输入的数据和神经网络每层输出的激活值,它的大小直接受到 batch size 以及图像分辨率 / 上下文长度的影响;

2. 「模型显存」,包括模型参数,梯度,以及优化器状态(optimizer states),它的大小与模型参数数量呈正比;

3. 「临时显存」,包括 GPU kernel 计算时用到的临时内存和其他缓存等。随着模型规模的增大,模型显存的占比逐渐增大,成为主要瓶颈。

优化器状态的大小由使用哪种优化器决定。当前,训练 Transformer 往往使用 AdamW 优化器,它们在训练过程中需要存储并更新两个优化器状态,即一阶和二阶矩(first and second moments)。如果模型参数量为 N,那么 AdamW 中优化器状态的数量为 2N,这显然是一笔极大的显存开销。

以 LLaMA-7B 为例,该模型含的参数数量大约 7B,如果使用全精度(32 比特)的 AdamW 优化器对它进行微调,那么优化器状态所占用的显存大小约为 52.2GB。此外,虽然朴素的 SGD 优化器不需要额外状态,节省了优化器状态所占用的内存,但是模型的性能难以保证。因此,本文主要关注如何减少模型内存中的优化器状态,同时保证优化器的性能不受损。

节省优化器内存的方法

目前在训练算法方面,节省优化器显存开销的方法主要有三类:

1. 通过低秩分解(Factorization)的思路对优化器状态进行低秩近似(low-rank approximation);

Visual Studio IntelliCode Visual Studio IntelliCode

微软VS平台的 AI 辅助开发工具

Visual Studio IntelliCode 46 查看详情 Visual Studio IntelliCode

2. 通过只训练一小部分参数来避免保存大多数的优化器状态,例如 LoRA;

3. 基于压缩 (compression)的方法,使用低精度数值格式来表示优化器状态。

特别的,Dettmers et al. (ICLR 2022)针对 SGD with momentum 和 AdamW 提出了相应的 8 比特优化器,通过使用分块量化(block-wise quantization)和动态指数数值格式(dynamic exponential numerical format)的技术,在语言建模、图像分类、自监督学习、机器翻译等任务上达到了与原有的全精度优化器相匹配的效果。

本文在基础上,将优化器状态的数值精度进一步降低至 4 比特,提出了针对不同优化器状态的量化方法,最终提出了 4 比特 AdamW 优化器。同时,本文探索了将 压缩和低秩分解方法结合的可能性,提出了 4 比特 Factor 优化器,这种混合式的优化器同时享有好的性能和更好的内存高效性。本文在众多经典的任务上对 4 比特优化器进行了评估,包括自然语言理解、图像分类、机器翻译和大模型的指令微调。

在所有的任务上,4 比特优化器达到了与全精度优化器可比的效果,同时能够占用更少的内存。

问题设置

基于压缩的内存高效优化器的框架

首先,我们需要了解如何将压缩操作引入到通常使用的优化器中,这由算法 1 给出。其中,A 是一个基于梯度的优化器(例如 SGD 或 AdamW)。该优化器输入现有的参数 w,梯度 g 和优化器状态 s,输出新的参数和优化器状态。在算法 1 中,全精度的 s_t 是暂时存在的,而低精度的 (s_t ) ̅ 会持久地保存在 GPU 内存中。这种方式能够节省显存的重要原因是:神经网络的参数往往由每层的参数向量拼接而成。因此,优化器更新也是逐层 / 张量进行,进而在算法 1 下,最多只有一个参数的优化器状态以全精度的形式留在内存中,其他层对应的优化器状态都处于被压缩的状态。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLaMA微调显存需求减半,清华提出4比特优化器

主要的压缩方法:量化(quantization)

量化是用低精度数值来表示高精度数据的技术,本文将量化的操作解耦为两部分:归一化(normalization)和映射(mapping),从而能够更加轻量级的设计并实验新的量化方法。归一化和映射两个操作依次以逐元素的形式施加在全精度数据上。归一化负责将张量中的每个元素投射到单位区间,其中张量归一化(per-tensor normalization)和分块归一化(block-wise normalization)分别如下定义:

LLaMA微调显存需求减半,清华提出4比特优化器

不同归一化方法的粒度不同,处理异常值的能力会有所区别,同时带来的额外内存开销也不同。而映射(mapping)操作负责将归一化的数值映射到低精度能够表示的整数。正式地讲,给定位宽 b(即量化后每个数值使用 b 比特来表示)和预先定义的函数 T 

LLaMA微调显存需求减半,清华提出4比特优化器

映射操作被定义为:

LLaMA微调显存需求减半,清华提出4比特优化器

因此,如何设计恰当的 T 对于减小量化误差有很重要的作用。本文主要考虑线性映射(linear)和动态指数映射(dynamic exponent)。最后,去量化的过程就是按顺序施加映射(mapping)和归一化(normalization)的逆算子。

一阶矩的压缩方法

以下主要针对 AdamW 的优化器状态(一阶矩和二阶矩)提出不同的量化方法。对于一阶矩,本文的量化方法主要基于 Dettmers et al. (ICLR 2022)的方法,使用分块归一化(块大小为 2048)和动态指数映射。

在初步的实验中,我们直接将位宽从 8 比特降低至 4 比特,发现一阶矩对于量化十分鲁棒,在很多任务上已经达到匹配的效果,但也在一部分任务上出现性能上的损失。为了进一步提高性能,我们仔细研究了一阶矩的模式,发现在单个张量中存在很多异常值。

此前的工作对于参数和激活值的异常值的模式已有一定的研究,参数的分布较为平滑,而激活值则具有按照 channel 分布的特点。本文发现,优化器状态中异常值的分布较为复杂,其中有些张量的异常值分布在固定的行,而另外一些张量的异常值分布在固定的列。

LLaMA微调显存需求减半,清华提出4比特优化器

对于异常值按列分布的张量,以行为优先的分块归一化可能会遇到困难。因此,本文提出采用更小的块,块大小为 128,这能够在减小量化误差的同时使额外的内存开销保持在可控的范围内。下图展示了不同块大小的量化误差。

LLaMA微调显存需求减半,清华提出4比特优化器

二阶矩的压缩方法

与一阶矩相比,二阶矩的量化更加困难并且会带来训练的不稳定性。本文确定了零点问题是量化二阶矩的主要瓶颈,此外针对病态的异常值分布提出了改进的归一化方法:rank-1 normalization。本文也尝试了对二阶矩的分解方法(factorization)。

零点问题

在参数、激活值、梯度的量化中,零点往往是不可缺少的,并且在也是量化后频率最高的点。但是,在 Adam 的迭代公式中,更新的大小正比于二阶矩的 -1/2 次方,因此在零附近的范围内改变会极大影响更新的大小,进而造成不稳定。

LLaMA微调显存需求减半,清华提出4比特优化器

下图以直方图的形式展示了量化前后 Adam 二阶矩 -1/2 次方的分布, 即 h (v)=1/(√v+10^(-6) )。如果将零点包括在内(图 b),那么大多数值都被推到了 10^6, 从而导致极大的近似误差。一个简单的办法是在动态指数映射中将零点移除,在这样做之后(图 c),对二阶矩的近似变得更加精确。在实际情况中,为了有效利用低精度数值的表达能力,我们提出采用移除零点的线性映射,在实验中取得了很好的效果。

LLaMA微调显存需求减半,清华提出4比特优化器

Rank-1 归一化

基于一阶矩和二阶矩复杂的异常值分布,并受 SM3 优化器所启发,本文提出了一种新的归一化方法,命名为 rank-1 归一化。对一个非负的矩阵张量 x∈R^(n×m), 它的一维统计量定义为:

LLaMA微调显存需求减半,清华提出4比特优化器

进而 rank-1 归一化可以被定义为:

LLaMA微调显存需求减半,清华提出4比特优化器

rank-1 归一化以更细粒度的方式利用了张量的一维信息,能够更聪明且有效地处理按行分布或按列分布的异常值。此外,rank-1 归一化能够简单的推广到高维张量中,并且随着张量规模的增大,它所产生的额外内存开销要小于分块归一化。

此外,本文发现 Adafactor 优化器中对于二阶矩的低秩分解方法能够有效的避免零点问题,因此也对低秩分解和量化方法的结合进行了探索。下图展示了针对二阶矩的一系列消融实验,证实了零点问题是量化二阶矩的瓶颈,同时也验证了 rank-1 归一化,低秩分解方法的有效性。

LLaMA微调显存需求减半,清华提出4比特优化器

实验结果

研究根据所观察的现象和使用的方式,最终提出两种低精度优化器:4 比特 AdamW 和 4 比特 Factor,并与其他优化器进行对比,包括 8 比特 AdamW,Adafactor, SM3。研究选择在广泛的任务上进行评估,包括自然语言理解、图像分类、机器翻译和大模型的指令微调。下表展示了各优化器在不同任务上的表现。

LLaMA微调显存需求减半,清华提出4比特优化器

LLaMA微调显存需求减半,清华提出4比特优化器

可以看到,在所有的微调任务上,包括 NLU,QA,NLG,4 比特优化器可以匹配甚至超过 32 比特 AdamW,同时在所有的预训练任务上,CLS,MT,4 比特优化器达到与全精度可比的水平。从指令微调的任务中可以看到,4 比特 AdamW 并不会破坏预训练模型的能力,同时能较好地使它们获得遵守指令的能力。

之后,我们测试了 4 比特优化器的内存和计算效率,结果如下表所示。相比 8 比特优化器,本文提出的 4 比特优化器能够节省更多内存,在 LLaMA-7B 微调的实验中最高节省 57.7%。此外,我们提供了 4 比特 AdamW 的融合算子版本,它能够在节省内存的同时不影响计算效率。对于 LLaMA-7B 的指令微调任务,由于缓存压力减小,4 比特 AdamW 也为训练带来了加速效果。详细的实验设置和结果可参考论文链接。

LLaMA微调显存需求减半,清华提出4比特优化器

替换一行代码即可在 PyTorch 中使用

import lpmmoptimizer = lpmm.optim.AdamW (model.parameters (), lr=1e-3, betas=(0.9, 0.999))

我们提供了开箱即用的 4 比特优化器,只需要将原有的优化器替换为 4 比特优化器即可,目前支持 Adam 和 SGD 的低精度版本。同时,我们也提供了修改量化参数的接口,以支持定制化的使用场景。

以上就是LLaMA微调显存需求减半,清华提出4比特优化器的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/875728.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月28日 07:19:03
下一篇 2025年11月28日 07:19:38

相关推荐

  • WLFI 代币:加密世界的政治与金融交织

    在数字货币的浩瀚星空中,wlfi 代币以其独特的叙事背景和内在价值逻辑,正逐渐成为一个不可忽视的存在。它不仅仅是区块链上的一串代码或一个简单的金融工具,更是加密世界政治与金融复杂交织的生动缩影。当传统金融的壁垒在区块链技术面前轰然倒塌,当主权国家与去中心化自治组织的边界日渐模糊,wlfi 代币的出现…

    好文分享 2025年12月9日
    000
  • 看币行情软件榜单 币圈十大免费看盘神器盘点

    看币行情软件是数字资产投资者用于跟踪市场动态、分析价格走势的重要工具。这些应用程序提供实时的价格数据、图表、交易量和其他关键指标,帮助用户做出更明智的投资决策。本文将盘点当前市场上广受欢迎的几款免费看盘工具,涵盖它们的主要功能和特点,为用户提供一份实用的参考指南。 一、主流交易平台工具 1、币安 (…

    2025年12月9日
    000
  • 聚焦 WLFI 代币解锁后的市场表现

    近期,加密货币市场迎来了一系列备受瞩目的事件,其中 **wlfi 代币的解锁**无疑是投资者们关注的焦点之一。伴随着大量代币从锁定状态中释放到流通市场,许多人不禁要问:wlfi 代币的解锁将如何影响其价格走势?市场将对此作何反应?是迎来一波抛售潮,还是激发新的上涨动能?本文将深入剖析 wlfi 代币…

    好文分享 2025年12月9日
    000
  • 稳定币与比特币:主要区别是什么?哪个更适合?

    比特币是去中心化数字黄金,适合投资与价值存储;稳定币锚定法币,价格稳定,适用于日常支付与defi。 2025主流交易所推荐 OKX是另一家在全球市场占有重要地位的数字资产交易平台,其在衍生品交易领域表现突出。平台提供包括币币交易、杠杆交易、合约交易、期权交易等全面的交易工具。 欧易OKX: 币安作为…

    2025年12月9日
    000
  • 欧易安卓(ok交易所) v6.132.1 官方安卓版

    欧易安卓版 v6.132.1 是为安卓设备用户提供的官方移动应用程序,旨在提供全面、安全且便捷的数字资产交易与管理服务。 欧易官网直达: 欧易官方app: 核心功能与服务 多样化的交易选择 该平台提供了丰富的交易类型以满足不同用户的需求。用户可以进行现货交易,即时买卖主流与新兴的数字资产。同时,它也…

    2025年12月9日
    000
  • 欧易okx交易所官方app v6.132.1 最新安卓版

    欧易OKX v6.132.1版本为安卓用户提供安全稳定的数字资产服务,支持现货、杠杆及衍生品交易,集成账户管理、赚币、挖K池等多元化功能,强化安全机制,并优化性能与界面,提升交易体验。 欧易OKX官方应用 v6.132.1 版本是为安卓设备用户设计的最新更新,它提供了一个全面且安全的平台,用于管理数…

    2025年12月9日
    000
  • 稳定币为什么爆火?个人如何投资稳定币?

    在波动剧烈的数字资产市场中,稳定币提供了一种价值相对恒定的选择,它像一座桥梁,连接了传统金融世界与新兴的数字经济。本文将深入探讨稳定币备受追捧的原因,并为希望参与的个人提供清晰的路径指引。 稳定币安全交易平台官网地址及APP下载链接分享 1、币安Binance: 2、欧易OKX: 3、火币HTX: …

    2025年12月9日
    000
  • 什么是比特币(BTC)?如何运作?比特币新手完整指南

    比特币是去中心化数字货币,基于区块链技术实现点对点交易,总量恒定2100万枚,具有抗通胀特性,被视为数字黄金;其运行依赖全球节点维护的分布式账本,交易公开透明且不可篡改;新手可通过Binance或OKX等交易所注册、实名认证后用法币购买,并将比特币转入个人钱苞保管;还可参与质押或生态项目增值;比特币…

    2025年12月9日
    000
  • 普通人如何购买比特币(BTC)和以太坊(ETH)?

    对于普通投资者来说,如何购买比特币(btc)和以太坊(eth)是进入币圈投资等第一步。本文将详细介绍从注册账户到完成购买的完整步骤,帮助新手顺利入手主流加密货币。 推荐使用币安(Binance)和欧易OKX作为主要交易平台。两者均提供安全的交易环境、实时行情监控以及多种支付方式。 币安注册链接与下载…

    2025年12月9日
    000
  • 什么是量化交易?币圈必学的智能自动理财技巧

    量化交易是指通过计算机程序、算法和数据模型来执行买卖操作的一种投资方式,在币圈中越来越受欢迎。与传统人工操作相比,量化交易可以减少情绪干扰,实现策略自动化执行,帮助投资者在加密市场中更高效地进行资产管理。 对于新手投资者,可以通过币安(Binance)或欧易OKX等主流交易所注册账户并下载官方APP…

    2025年12月9日
    000
  • WLFI 代币交易开放,对散户意味着什么

    WLFI代币交易开放意味着散户迎来新投资机遇,可能获得高回报并参与生态建设,但需面对市场波动、信息不对称和安全风险,应通过深入研究、分散投资、小额建仓和使用主流平台等策略谨慎应对。 WLFI 代币交易开放,对散户意味着什么 加密货币市场始终是波澜壮阔,每一个新代币的交易开放都如同投石入水,激起层层涟…

    2025年12月9日
    000
  • OKZOO是什么?OKZOO未来潜力解析及价格走势预测

    OKZOO(AIOT)是一个结合人工智能(AI)、物联网(IoT)和去中心化网络(DePIN)的创新型项目,旨在通过智能设备收集环境数据,并通过代币激励机制促进用户参与。本文将详细解析OKZOO的运作机制、市场表现和未来潜力,并提供价格走势预测。 对于有意参与的投资者,可以通过币安(Binance)…

    2025年12月9日
    000
  • 数字货币值得投资吗?数字货币在什么上交易?

    本文旨在探讨数字货币是否值得投资,并介绍其交易平台的选择和特点,为读者提供清晰的投资参考和交易入口指引。通过分析市场趋势和交易平台功能,帮助读者理性判断数字货币的投资价值及操作方式。 一、数字货币投资价值分析 1、数字货币市场近年来发展迅速,其去中心化特性和高波动性吸引了大量投资者。部分主流数字货币…

    2025年12月9日
    000
  • 易欧交易所app最新安卓官方版

    易欧交易所(okx)app最新安卓官方版是用户进行数字货币交易的主流选择之一。这款应用功能全面,支持多种数字资产与交易类型,适合不同层次的投资者使用。下载和使用时,确保通过官方渠道获取应用,保障账户与资产安全。 最新版本与功能特点 OKX官方合作伙伴认证 · 一站式安全交易体验 官网直达: 安卓安装…

    2025年12月9日
    000
  • 易欧交易所_易欧交易所最新app下载

    欧易(okx)是主流的数字资产交易平台之一,提供网页端和移动端应用,方便用户进行加密货币交易。要下载欧易的最新官方app,最稳妥的方式是直接访问其官网,避免通过不明链接,以防下载到假冒软件造成资产损失。 如何安全下载欧易App OKX官方合作伙伴认证 · 一站式安全交易体验 官网直达: 安卓安装包下…

    2025年12月9日
    000
  • 全球十大比特币交易平台盘点(2025年最新版)

    随着数字货币市场的持续发展,选择一个安全可靠的比特币交易平台至关重要。本文为您精心整理了2025年全球顶级的十大比特币交易平台,通过分析其交易量、安全性、用户体验及产品功能,帮助您快速找到最适合自己投资需求的交易伙伴。 2025年顶级比特币交易平台排行榜 1. 币安 (Binance)  官网直达:…

    2025年12月9日
    000
  • 币安交易所app下载_币安官方最新app下载

    获取币安官方最新app,最安全可靠的途径是通过访问其官方网站。官方网站会提供适用于不同操作系统的最新版本下载方式,通常是引导您至应用商店或提供官方认证的下载指引,以确保您的账户安全。 币安官网直达: 币安官方app: 币安平台简介 币安是全球领先的数字资产交易平台之一,为全球众多国家和地区的用户提供…

    2025年12月9日
    000
  • 如何接收您的第一个加密货币?详细步骤指南

    首先注册交易所账户并完成身份认证,然后生成对应币种的唯一接收地址,发送给转账方并核对信息,最后等待网络确认到账,即可成功接收加密货币。 想要接收您的第一个加密货币,最重要的是了解整个过程的操作步骤和需要准备的工具。本文将为您提供一个详细的指南,帮助您顺利完成加密货币的接收,从创建账户到确认到账,每一…

    2025年12月9日
    000
  • wlfi币去哪里可以买到 wlfi币在哪买

    对于希望投资或交易wlfi币的用户来说,找到一个安全可靠的交易平台至关重要。本文将为您梳理并介绍当前可以购买到wlfi币的主要渠道,并对各大主流交易所进行说明,帮助您快速了解入门途径。 主流加密货币交易所概览 在深入了解WLFI的具体购买渠道之前,我们首先需要了解行业内顶级的几家交易所。这些平台拥有…

    2025年12月9日
    000
  • 比特币网址怎么进入 比特币网址怎么进入网站

    对于希望进入比特币及其他加密货币世界的用户来说,找到安全可靠的交易平台入口是第一步。本文将为您盘点全球顶级的比特币交易平台网址,并介绍如何安全地访问它们,帮助您轻松开启数字资产交易之旅。 如何进入比特币网站及主流平台推荐 通常所说的“比特币网址”主要是指进行比特币交易的平台,即加密货币交易所。进入这…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信