使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm)是一项计算密集型的任务,即使是那些“只有”70亿个参数的模型也是如此。这种级别的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(lora)等参数高效方法,使得在消费级gpu上可以对大量模型进行微调。

GaLore是一种创新方法,它采用优化参数训练方式来减少VRAM需求,而非简单减少参数数量。这意味着GaLore是一种新的模型训练策略,允许模型充分利用全部参数进行学习,并比LoRA更有效地节省内存。

GaLore通过将这些梯度映射到低维空间,有效减轻了计算负担,同时保留了关键的训练信息。与传统优化器在反向传播时一次性更新所有层不同,GaLore采用逐层更新的方式进行反向传播。这种策略显著减少了训练过程中的内存占用,进一步优化了性能。

就像LoRA一样,GaLore使我们能够在消费级GPU上微调7B模型,该GPU配备了高达24 GB的VRAM。结果显示,模型的性能与全参数微调相当,甚至似乎优于LoRA。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

使用GaLore在本地GPU进行高效的LLM调优

优于目前Hugging Face还没有官方代码,我们就来手动使用论文的代码进行训练,并与LoRA进行对比

安装依赖

首先就要安装GaLore

pip install galore-torch

然后我们还要一下这些库,并且请注意版本

datasets==2.18.0 transformers==4.39.1 trl==0.8.1 accelerate==0.28.0 torch==2.2.1

调度器和优化器的类

Galore分层优化器是通过模型权重挂钩激活的。由于我们使用Hugging Face Trainer,还需要自己实现一个优化器和调度器的抽象类。这些类的结构不执行任何操作。

from typing import Optional import torch  # Approach taken from Hugging Face transformers https://github.com/huggingface/transformers/blob/main/src/transformers/optimization.py class LayerWiseDummyOptimizer(torch.optim.Optimizer):def __init__(self, optimizer_dict=None, *args, **kwargs):dummy_tensor = torch.randn(1, 1)self.optimizer_dict = optimizer_dictsuper().__init__([dummy_tensor], {"lr": 1e-03}) def zero_grad(self, set_to_none: bool = True) -> None: pass def step(self, closure=None) -> Optional[float]: pass  class LayerWiseDummyScheduler(torch.optim.lr_scheduler.LRScheduler):def __init__(self, *args, **kwargs):optimizer = LayerWiseDummyOptimizer()last_epoch = -1verbose = Falsesuper().__init__(optimizer, last_epoch, verbose) def get_lr(self): return [group["lr"] for group in self.optimizer.param_groups] def _get_closed_form_lr(self): return self.base_lrs

加载GaLore优化器

GaLore优化器的目标是特定的参数,主要是那些在线性层中以attn或mlp命名的参数。通过系统地将函数与这些目标参数挂钩,GaLore 8位优化器就会开始工作。

from transformers import get_constant_schedule from functools import partial import torch.nn import bitsandbytes as bnb  from galore_torch import GaLoreAdamW8bit  def load_galore_optimizer(model, lr, galore_config):# function to hook optimizer and scheduler to a given parameter def optimizer_hook(p, optimizer, scheduler):if p.grad is not None: optimizer.step()optimizer.zero_grad()scheduler.step() # Parameters to optimize with Galoregalore_params = [(module.weight, module_name) for module_name, module in model.named_modules() if isinstance(module, nn.Linear) and any(target_key in module_name for target_key in galore_config["target_modules_list"])] id_galore_params = {id(p) for p, _ in galore_params} # Hook Galore optim to all target params, Adam8bit to all othersfor p in model.parameters():if p.requires_grad:if id(p) in id_galore_params:optimizer = GaLoreAdamW8bit([dict(params=[p], **galore_config)], lr=lr)else:optimizer = bnb.optim.Adam8bit([p], lr = lr)scheduler = get_constant_schedule(optimizer) p.register_post_accumulate_grad_hook(partial(optimizer_hook, optimizer=optimizer, scheduler=scheduler)) # return dummies, stepping is done with hooks return LayerWiseDummyOptimizer(), LayerWiseDummyScheduler()

HF Trainer

准备好优化器后,我们开始使用Trainer进行训练。下面是一个简单的例子,使用TRL的SFTTrainer (Trainer的子类)在Open Assistant数据集上微调llama2-7b,并在RTX 3090/4090等24 GB VRAM GPU上运行。

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, set_seed, get_constant_schedule from trl import SFTTrainer, setup_chat_format, DataCollatorForCompletionOnlyLM from datasets import load_dataset import torch, torch.nn as nn, uuid, wandb  lr = 1e-5  # GaLore optimizer hyperparameters galore_config = dict(target_modules_list = ["attn", "mlp"], rank = 1024, update_proj_gap = 200, scale = 2, proj_type="std" )  modelpath = "meta-llama/Llama-2-7b" model = AutoModelForCausalLM.from_pretrained(modelpath,torch_dtype=torch.bfloat16,attn_implementation = "flash_attention_2",device_map = "auto",use_cache = False, ) tokenizer = AutoTokenizer.from_pretrained(modelpath, use_fast = False)  # Setup for ChatML model, tokenizer = setup_chat_format(model, tokenizer) if tokenizer.pad_token in [None, tokenizer.eos_token]: tokenizer.pad_token = tokenizer.unk_token  # subset of the Open Assistant 2 dataset, 4000 of the top ranking conversations dataset = load_dataset("g-ronimo/oasst2_top4k_en")  training_arguments = TrainingArguments(output_dir = f"out_{run_id}",evaluation_strategy = "steps",label_names = ["labels"],per_device_train_batch_size = 16,gradient_accumulation_steps = 1,save_steps = 250,eval_steps = 250,logging_steps = 1, learning_rate = lr,num_train_epochs = 3,lr_scheduler_type = "constant",gradient_checkpointing = True,group_by_length = False, )  optimizers = load_galore_optimizer(model, lr, galore_config)  trainer = SFTTrainer(model = model,tokenizer = tokenizer,train_dataset = dataset["train"],eval_dataset = dataset['test'],data_collator = DataCollatorForCompletionOnlyLM(instruction_template = "user", response_template = "assistant", tokenizer = tokenizer, mlm = False),max_seq_length = 256,dataset_kwargs = dict(add_special_tokens = False),optimizers = optimizers,args = training_arguments, )  trainer.train()

GaLore优化器带有一些需要设置的超参数如下:

target_modules_list:指定GaLore针对的层

rank:投影矩阵的秩。与LoRA类似,秩越高,微调就越接近全参数微调。GaLore的作者建议7B使用1024

行者AI 行者AI

行者AI绘图创作,唤醒新的灵感,创造更多可能

行者AI 100 查看详情 行者AI

update_proj_gap:更新投影的步骤数。这是一个昂贵的步骤,对于7B来说大约需要15分钟。定义更新投影的间隔,建议范围在50到1000步之间。

scale:类似于LoRA的alpha的比例因子,用于调整更新强度。在尝试了几个值之后,我发现scale=2最接近于经典的全参数微调。

微调效果对比

给定超参数的训练损失与全参数调优的轨迹非常相似,表明GaLore分层方法确实是等效的。

使用GaLore在本地GPU进行高效的LLM调优

用GaLore训练的模型得分与全参数微调非常相似。

使用GaLore在本地GPU进行高效的LLM调优

GaLore可以节省大约15 GB的VRAM,但由于定期投影更新,它需要更长的训练时间。

使用GaLore在本地GPU进行高效的LLM调优

上图为2个3090的内存占用对比

使用GaLore在本地GPU进行高效的LLM调优

训练事件对比,微调:~58分钟。GaLore:约130分钟

最后我们再看看GaLore和LoRA的对比

使用GaLore在本地GPU进行高效的LLM调优

上图为LoRA微调所有线性层,rank64,alpha 16的损失图

使用GaLore在本地GPU进行高效的LLM调优

从数值上可以看到GaLore是一种近似全参数训练的新方法,性能与微调相当,比LoRA要好得多。

总结

GaLore可以节省VRAM,允许在消费级GPU上训练7B模型,但是速度较慢,比微调和LoRA的时间要长差不多两倍的时间。

以上就是使用GaLore在本地GPU进行高效的LLM调优的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/618898.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
平安好车主app怎么进行续保_平安好车主app进行续保详细方法
上一篇 2025年11月11日 05:31:39
APP定制开发多少钱?用这个平台自己也能定制开发APP,费用节省90%以上
下一篇 2025年11月11日 05:31:47

相关推荐

  • JavaScript 闭包:理解闭包原理与内存泄漏问题

    闭包是函数访问其外部作用域变量的能力,即使外部函数已执行完毕。如 inner 函数引用 outer 中的 count,形成闭包,使变量持久存在。闭包本身无害,但可能因延长变量生命周期导致内存泄漏,例如事件监听器引用大对象时。若未及时清理 DOM 事件或定时器,闭包会阻止垃圾回收,造成内存占用过高。解…

    2026年5月10日
    100
  • Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

    答案:通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理,结合系统调优,可显著提升Golang百万级TCP长连接处理效率。 在高并发网络服务场景中,TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

    2026年5月10日
    000
  • Golang 文件IO操作与性能优化实践

    合理使用Go标准库并优化IO策略可显著提升文件处理性能。1. 使用bufio减少系统调用,适合小块读写;2. 大文件用流式读取避免OOM,小文件可一次性加载;3. 并发分片读取大文件并配合预读提升吞吐;4. 结合系统调优如O_DIRECT、关闭atime等防止IO瓶颈。 Go语言在文件IO操作上提供…

    2026年5月10日
    000
  • Python Pandas:高效合并多工作簿多工作表 Excel 数据

    本教程详细指导如何使用 Python Pandas 库高效合并来自多个 Excel 文件中指定工作表的数据。文章将解释如何遍历文件目录、正确加载 Excel 文件、识别并解析特定工作表,并将来自不同文件的同名工作表数据智能地整合到一个 Pandas DataFrame 字典中,同时提供完整的示例代码…

    2026年5月10日
    000
  • C++怎么使用静态库和动态库_C++链接静态库与动态库的方法与区别

    静态库在编译时链接,生成独立可执行文件;动态库运行时加载,节省内存。1. 静态库用ar打包.o文件为.a,编译时通过-L和-l链接;2. 动态库需-fPIC编译生成.so,运行前配置LD_LIBRARY_PATH或系统路径;3. 静态库体积大但部署方便,动态库共享内存利于更新。 在C++项目开发中,…

    2026年5月10日
    000
  • JavaScript DOM操作:点击关联元素获取目标文本内容的教程

    本教程详细介绍了如何通过JavaScript处理用户点击事件,并结合DOM的 closest() 和 querySelector() 方法,从复杂的HTML结构中准确获取目标元素的文本内容。文章强调了使用 addEventListener() 进行事件绑定、避免重复ID以及高效DOM遍历的最佳实践,…

    2026年5月10日
    000
  • 如何优化JavaScript代码的性能以避免运行时瓶颈?

    优化JavaScript性能需减少DOM操作,通过缓存查询、使用DocumentFragment和合并样式修改来降低重排重绘;2. 采用事件委托减少内存占用并提升绑定效率;3. 拆分长任务,利用requestIdleCallback、Web Worker和requestAnimationFrame避…

    2026年5月10日
    000
  • XML流式解析的优势是什么?

    流式解析能高效处理超大XML文件,因它边读边处理,内存占用低。SAX事件驱动、性能高但状态管理复杂;StAX拉模式灵活可控,适合复杂逻辑。挑战包括上下文维护、错误恢复难、验证集成和无随机访问,需用栈管理、索引或混合模式应对。 XML流式解析的优势在于它能够以极低的内存消耗处理任意大小的XML文档,尤…

    2026年5月10日
    000
  • PHP递归和迭代哪个快_PHP递归与迭代执行效率对比评测

    递归因函数调用开销大、内存消耗高,在PHP中执行效率通常低于迭代;以斐波那契数列为例,朴素递归时间复杂度达O(2^n),迭代为O(n),带缓存的递归可优化至O(n)但仍慢于迭代;通过microtime和memory_get_usage对比测试可验证该结论;启用OPcache等环境优化可提升整体性能,…

    2026年5月10日
    000
  • C# 如何高效读取超大xml文件

    使用 XmlReader 流式读取超大 XML 文件,避免内存溢出。1. 通过 XmlReader 逐节点解析,仅读取所需数据;2. 遇到 Record 节点时提取 Id 属性及 Name 元素值;3. 可结合 ReadSubtree 对局部子树使用 LINQ to XML 解析;4. 设置 Xml…

    2026年5月10日
    000
  • Go语言中基于Channel的并发快速排序:原理、实现与性能分析

    本文深入探讨了go语言中利用channel实现并发快速排序的机制。我们将分析其代码结构,阐明channel如何作为数据输入输出的管道,以及并发goroutine如何协同工作。同时,文章将重点评估这种实现方式的性能特点,指出其在展示go并发模型优雅性的同时,相比传统排序算法可能存在的性能开销与内存占用…

    2026年5月10日
    100
  • javascript闭包如何保存富文本状态

    javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态javascript闭包如何保存富文本状态

    闭包在富文本编辑器中扮演“守门人”和“隔离器”的角色,1. 它通过封装私有变量(如内容、撤销栈、选区)确保状态不被外部直接访问;2. 每个编辑器实例拥有独立的作用域,实现状态隔离;3. 提供公共方法作为唯一操作接口,保障数据一致性;4. 支持模块化与可维护性,便于测试与扩展;5. 需注意内存泄漏、过…

    2026年5月10日 用户投稿
    000
  • 如何计算C++结构体的大小?解析结构体内存对齐原则

    如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则

    结构体内存对齐的原则包括:1. 结构体成员对齐,每个成员按自身大小对齐;2. 结构体整体对齐,整体大小需是对齐系数(通常为最大成员大小)的倍数;3. 填充字节插入以满足上述规则。例如,struct mystruct { char a; int b; char c;} 默认情况下会因填充导致大小为12…

    2026年5月10日 用户投稿
    000
  • Golang的函数字面量如何使用 讲解匿名函数的定义与调用方式

    Golang的函数字面量如何使用 讲解匿名函数的定义与调用方式Golang的函数字面量如何使用 讲解匿名函数的定义与调用方式Golang的函数字面量如何使用 讲解匿名函数的定义与调用方式Golang的函数字面量如何使用 讲解匿名函数的定义与调用方式

    go语言中的函数字面量(匿名函数)是一种无需命名即可直接定义和使用的函数,它能提升代码灵活性和表达力。1. 它可赋值给变量并调用;2. 可立即执行(iife);3. 可作为参数传递给其他函数;4. 适用于goroutine并发任务;5. 支持闭包,捕获外部变量形成“记忆体”。使用时需注意循环变量捕获…

    2026年5月10日 用户投稿
    100
  • Golang指针与结构体组合使用优化技巧

    使用指针指向结构体可避免复制开销,提升性能。在传递大型结构体时,传指针仅传递地址,减少内存占用和复制时间。如User和Image结构体示例所示,值传递会复制整个结构体,导致性能下降,而指针传递高效且能修改原数据。此外,处理嵌套指针时需检查nil,防止空指针异常,如Employee结构体中先判空emp…

    2026年5月10日
    000
  • 如何通过 JavaScript 的 File API 在浏览器中实现文件的分片上传?

    答案:浏览器文件分片上传通过File API将大文件切片,利用FormData逐个发送,结合并发控制与断点续传提升稳定性。具体为:1. 使用File.slice()按字节分割文件;2. 每片携带索引、总片数、fileId等信息通过fetch上传;3. 限制并发请求数避免资源耗尽,使用Promise控…

    2026年5月10日
    100
  • php opcache是如何工作的?PHP Opcache工作原理与配置

    PHP Opcache通过缓存编译后的操作码,避免重复解析编译,提升执行效率。启用后,首次请求生成Opcode并存入共享内存,后续请求直接加载缓存,跳过解析步骤。关键指标如opcache.hit_rate反映缓存命中率,理想值应达95%以上。通过phpinfo()或opcache_get_statu…

    2026年5月10日
    000
  • Golang缓存机制提升访问效率实践

    使用sync.Map实现内存缓存,结合TTL过期与LRU淘汰策略,可有效提升高并发下Golang服务性能,减少数据库压力。 在高并发服务场景中,频繁访问数据库或远程接口会显著影响响应速度和系统负载。Golang 作为高性能语言,天然适合构建高效缓存机制来减少重复计算和外部依赖调用。通过合理使用内存缓…

    2026年5月10日
    000
  • 怎样使用Node.js流处理数据?

    Node.js流处理通过可读、可写、双工和转换流实现高效数据处理,利用pipe()方法连接流并自动管理背压,结合stream.pipeline进行错误处理,适用于大文件、网络通信等场景,提升内存和时间效率。 在Node.js中处理数据,尤其当面对大量信息时,直接把所有内容加载到内存里往往不是一个好主…

    2026年5月10日
    100
  • python怎么读取文件中的数据 python文件读取read方法实战

    python中使用read方法读取文件的主要步骤包括:1. 使用with语句打开文件,确保文件正确关闭;2. 调用read方法读取文件内容,可指定读取字符数;3. 处理大文件时,使用readline或迭代器逐行读取;4. 读取不同编码的文件时,需指定编码;5. 优化读取性能时,可考虑缓存或使用特定格…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信