改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长,微调整个模型的开销逐渐变得难以接受。

因此,北京大学的研究团队提出了一种名为 PiSSA 的参數高效微调方法,在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

论文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

论文链接: https://arxiv.org/pdf/2404.02948.pdf

代码链接: https://github.com/GraphPKU/PiSSA

图1显示,PiSSA(图1c)在模型架构上和LoRA [1] 完全一致(图1b),只是初始化Adapter的方式不同。LoRA 使用高斯噪声初始化A,使用0初始化B。而PiSSA 使用主奇异值和奇异向量(Principal Singular values and Singular vectors)来初始化Adapter 来初始化A 和 B。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

图1展示了从左到右依次为全参数微调、LoRA和PiSSA。蓝色代表冻结的参数,橙色代表可训练参数及其它的初始化方式。相比全参数微调,LoRA和PiSSA都大幅减少可训练参数量。对于相同输入,这三种方法的初始输出完全相等。然而,PiSSA冻结模型的次要部分,直接微调主要部分(前r个奇异值和奇异向量);而LoRA可看作冻结模型的主要部分,去微调noise部分。

在不同的任务上对比 PiSSA、LoRA 的微调效果

研究团队使用 llama 2-7B、Mistral-7B 以及 Gemma-7B 作为基础模型,通过微调提升它们的数学、代码和对话能力。其中包括:在 MetaMathQA 上训练,在 GSM8K 和 MATH 数据集上验证模型的数学能力;在 CodeFeedBack 上训练,在 HumanEval 和 MBPP 数据集上验证模型的代码能力;在 WizardLM-Evol-Instruct 上训练,在 MT-Bench 上验证模型的对话能力。从下表的实验结果可以看出,使用相同规模的可训练参数,PiSSA 的微调效果显著超越了 LoRA,甚至超越了全参数微调。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

对比 PiSSA、LoRA 在不同的可训练参数量下微调的效果

研究团队在数学任务上对模型的可训练参数量和效果之间的关系进行消融实验。从图 2.1 发现在训练初期,PiSSA 的训练 loss 下降特别快,而 LoRA 存在不下降,甚至略有上升的阶段。此外,PiSSA 的训练 loss 全程低于 LoRA,说明对训练集拟合得更好;从图 2.2、2.3、2.4 可以看出在每种 setting 下,PiSSA 的 loss 始终比 LoRA 低,准确率始终比 LoRA 高,PiSSA 能够使用更少的可训练参数追赶上全参数微调的效果。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

图 2.1) 当秩为 1 时 PiSSA、LoRA 在训练过程中的 loss。每幅图的右上角是前 100 步迭代放大的曲线。其中 PiSSA 用橙色线表示,LoRA 用蓝色线表示,全参数微调用绿线展示了最终的 loss 作为参考。秩为 [2,4,8,16,32,64,128] 时的现象与此一致,详见文章附录。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

                                  图 2.2)使用秩为 [1,2,4,8,16,32,64,128] 的 PiSSA 和 LoRA 的最终 training loss。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

                                   图 2.3)使用秩为 [1,2,4,8,16,32,64,128] 的 PiSSA 和 LoRA 微调的模型在 GSM8K 上的准确率。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

                                       图 2.4)使用秩为 [1,2,4,8,16,32,64,128] 的 PiSSA 和 LoRA 微调的模型在 MATH 上的准确率。

PiSSA 方法详解

受到 Intrinsic SAID [2]“预训练大模型参数具有低秩性” 的启发,PiSSA 对预训练模型的参数矩阵改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果进行奇异值分解,其中前 r 个奇异值和奇异向量用来初始化适配器 (adapter) 的两个矩阵改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果;剩余的奇异值和奇异向量用来构造残差矩阵改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果,使得改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果。因此,适配器中的参数包含了模型的核心参数,而残差矩阵中的参数是修正参数。通过微调参数量较小的核心适配器 A、B,冻结参数量较大的残差矩阵改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果,就达成了用很少的参数近似全参数微调的效果。

尽管同样受到 Intrinsic SAID [1] 启发,PiSSA 和 LoRA 背后的原理却截然不同。

LoRA 认为大模型微调前后矩阵的变化 △W 具有很低的本征秩 r,因此通过改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果相乘得到的低秩矩阵来模拟模型的变化 △W。初始阶段,LoRA 使用高斯噪声初始化 A,使用 0 初始化 B,因此改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果,以此保证模型初始能力没有变化,并微调 A 和 B 实现对 W 进行更新。与此相比,PiSSA 不关心 △W,而是认为 W 具有很低的本征秩 r。因此直接对 W 进行奇异值分解,分解成主成分 A、B,以及残差项改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果,使得改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果。假设 W 的奇异值分解为改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果,A、B 使用 SVD 分解后奇异值最大的 r 个奇异值、奇异向量进行初始化:

小微助手 小微助手

微信推出的一款专注于提升桌面效率的助手型AI工具

小微助手 47 查看详情 小微助手

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

残差矩阵使用其余的奇异值、奇异向量进行初始化:

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

PiSSA 直接对 W 的低秩主成分 A、B 进行微调,冻结次要的修正项。相比 LoRA 用高斯噪声以及 0 初始化适配器参数、冻结核心模型参数,PiSSA 收敛更快、效果更好。

PiSSA 的发音类似 “披萨”(pizza)— 如果把整个大模型类比为一个完整的披萨,PiSSA 切掉其中一角,而且是馅料最丰富的一角(主奇异值、奇异向量),重新烘焙(在下游任务上微调)成喜欢的口味。

由于 PiSSA 采用了和 LoRA 完全相同的架构,其可以作为 LoRA 的一种可选初始化方式,在 peft 包中很方便的进行修改和调用 (如以下代码所示)。相同的架构也使得 PiSSA 继承了大多数 LoRA 的优点,如:对残差模型使用 4bit 量化 [3],减小训练开销;微调完成后适配器能合并进残差模型,不改变推理过程的模型架构;无需分享完整模型参数,只需要分享参数量很少的 PiSSA 模块,使用者直接加载 PiSSA 模块就能自动进行奇异值分解以及赋值;一个模型可以同时使用多个 PiSSA 模块等等。一些对 LoRA 方法的改进,也能与 PiSSA 进行结合:比如不固定每层的秩,通过学习找到最佳的秩 [4];用 PiSSA 指导的更新 [5],从而突破秩的限制等等。

# 在 peft 包中 LoRA 的初始化方式后面增加了一种 PiSSA 初始化选项:if use_lora:nn.init.normal_(self.lora_A.weight, std=1 /self.r)nn.init.zeros_(self.lora_B.weight) elif use_pissa:Ur, Sr, Vr = svd_lowrank (self.base_layer.weight, self.r, niter=4) # 注意:由于 self.base_layer.weight 的维度是 (out_channel,in_channel, 所以 AB 的顺序相比图示颠倒了一下)self.lora_A.weight = torch.diag (torch.sqrt (Sr)) @ Vh.t ()self.lora_B.weight = Ur @ torch.diag (torch.sqrt (Sr))   self.base_layer.weight = self.base_layer.weight - self.lora_B.weight @ self.lora_A.weight

对比高中低奇异值微调效果实验

为了验证使用不同大小奇异值、奇异向量初始化适配器对模型的影响,研究人员分别使用高、中、低奇异值初始化 LLaMA 2-7B、Mistral-7B-v0.1、Gemma-7B 的适配器,然后在 MetaMathQA 数据集上进行微调,实验结果展示在图 3 中。从图中可以看出,使用主要奇异值初始化的方法训练损失最小,在 GSM8K 和 MATH 验证集上的准确率更高。这一现象验证了微调主要奇异值、奇异向量的有效性。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

图 3)从左到右依次为训练 loss、在 GSM8K 上的准确率、在 MATH 上的准确率。其中蓝色表示最大奇异值、橙色表示中等奇异值、绿色表示最小奇异值。

快速奇异值分解

PiSSA 继承了 LoRA 的优点,使用起来方便,效果超越 LoRA。代价是在初始化阶段,需要对模型进行奇异值分解。虽然仅需要在初始化时分解一次,但是仍然可能需要几分钟甚至几十分钟的开销。因此,研究人员使用一种快速奇异值分解 [6] 方法替代标准的 SVD 分解,通过下表的实验可以看出,仅需几秒钟的时间,就能逼近标准 SVD 分解的训练集拟合效果。其中 Niter 表示迭代次数,Niter 越大,时间越久但是误差越小。Niter = ∞表示标准 SVD。表格中的平均误差表示快速奇异值分解与标准 SVD 得到的 A、B 之间的平均 L_1 距离。

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

总结与展望

本工作对预训练模型的权重进行奇异值分解,通过将其中最重要的参数用于初始化一个名为 PiSSA 的适配器,微调这个适配器来近似微调完整模型的效果。实验表明,PiSSA 比 LoRA 收敛更快,最终效果更好,唯一的代价仅是需要几秒的 SVD 初始化过程。

那么,您愿意为了更好的训练效果,多花几秒钟时间,一键更改 LoRA 的初始化为 PiSSA 吗?

参考文献

[1] LoRA: Low-Rank Adaptation of Large Language Models

[2] Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

[3] QLoRA: Efficient Finetuning of Quantized LLMs

[4] AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

[5] Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices

[6] Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions

以上就是改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/615867.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 03:56:27
下一篇 2025年11月11日 03:57:06

相关推荐

  • 2025哪些币会成为百倍币?百倍币投资思路

    2025 哪些币可能成为百倍币?投资思路全解析 对于加密货币投资者来说,寻找“百倍币”是一种高风险高收益策略。  所谓百倍币,是指在短中期内价格可能上涨数十倍甚至上百倍的潜力币种。  本文为新手提供判断逻辑、投资思路和风险提示,帮助理性布局 高风险资产。 Binance币安 官网直达: 安卓安装包下…

    2025年12月9日
    000
  • 3.5 亿只是起点:Arbitrum 的 RWA 生态,藏着哪些财富密码?

    目录 Arbitrum 上的 RWA 概述为何选择 Arbitrum?哪些提案推动了这一发展?Arbitrum 上 RWA 的增长Arbitrum 上 RWA 的增长历程RWA 资产与提供商城堡实验室(CASTLE LABS)产品清单SpikoFranklin TempletonSecuritize…

    2025年12月9日 好文分享
    000
  • 加密货币融入传统金融:制度探索与实践路径解析

    近年来,加密资产已超越单纯的投机属性,逐步演变为现代金融体系中不可或缺的基础设施。其与传统金融(TradFi)的深度融合,正从多个层面稳步推进,具体可归纳为以下五个方向: 一、监管与制度框架初步搭建 美国国会推动的GENIUS Act(全称为“生成性创新与稳定币保障法案”)明确要求稳定币发行方必须以…

    2025年12月9日
    000
  • Tokens 社区活跃度提升,对价格有何影响

    社区活跃度提升通常预示着项目生命力增强,通过提高知名度、增强信心、吸引资金流入等机制推动Token价格上涨,但需警惕炒作、虚假活跃和社区内讧等风险,投资者应结合社交媒体、链上数据、开发者活动等多维度进行综合分析,辨别真实活跃度。 加密货币市场波诡云谲,其中一个常常被忽视但却至关重要的指标便是Toke…

    2025年12月9日
    000
  • 币圈山寨币都会归零吗

    并非所有山寨币都会归零,但中小市值币种风险高达50%-90%,%ignore_a_2%如BTC、ETH归零概率低于5%;历史显示40%-60%山寨币因技术缺陷、团队跑路等原因消亡,2025年或降至30%-50%;当前为“选择性牛市”,仅少数具实际价值项目能存活。 币圈山寨币都会归零吗? 答案是否定的…

    2025年12月9日
    000
  • Bullish百亿IPO光鲜的背后,是EOS社区梦碎资本游戏

    目录 42亿美元的背叛Bullish 融资10亿新起点48亿估值,是“低调”还是另有图谋? 8 月 12 日,继 coinbase 之后,第二家加密交易所将正式登陆纽约证券交易所——bullish 计划通过首次公开募股筹集约 9.9 亿美元。 表面上,这只是加密行业的又一次例行登场。过去半年 Cir…

    2025年12月9日 好文分享
    000
  • FG Nexus计划收购ETH总量的10%,FG Nexus竞争力几何?

    近来,以太坊币价强势上攻,各路eth财库储备派的持续加码无疑是主要推手。市场情绪升温之际,又一新晋巨鲸高调入场搅局,美股上市公司fundamental global inc.近期宣布更名为fg nexus,并计划通过多轮融资最终购入总供应量10%的eth,目标规模远超当前稳居以太坊储备龙头的bitm…

    2025年12月9日
    000
  • 如何选币、如何了解各种币的来历、以及市场价值

    科学选币需结合市值流动性、技术应用、合规背书,追溯团队、经济模型与投资机构,评估市值/TVL、社区活跃度等指标,参考BTC、ETH案例,通过四步排雷与动态框架控制风险。 在加密资产领域,如何科学选币、追溯币种起源并评估市场价值是每位参与者的核心技能。本文整合权威方法论与市场数据,提供一套可操作的评估…

    2025年12月9日
    000
  • 币圈一级市场有什么币值得埋伏吗?

    华兴资本徐锟指出,2025年一季度一级市场虽投资量环比回落,但AI大模型与具身智能成资本焦点,估值逻辑分化显现,开源模型重生态协同,闭源模型重商业化落地,具身智能进入资本聚焦期,商业化验证成关键;同时市场“二八效应”凸显,国资主导募资,头部机构优势强化,中小机构承压。 2025年一级市场埋伏指南:高…

    2025年12月9日
    000
  • 探索以太坊(ETH)国库公司的链上影响

    目录 关键要点:数字资产国库的崛起供应动态:争夺 5% 市场供应生态影响:质押、DeFi 与链上活动将企业国库表现与链上健康联系起来与国库公司表现挂钩的指标结论‍ 关键要点: 以 ETH 为核心的数字资产国库正在快速扩张,仅两个月内就累计了 220 万枚 ETH(占供应量的 1.8%),造成供需失衡…

    2025年12月9日 好文分享
    000
  • 详解35天扫货50亿 夺下以太坊龙头宝座 ETH格局已变未来已来

    2025年7月1日,bitmine的eth持仓为零。 到了8月5日,其公开披露的持仓已达到833,137枚。 短短三十余天,这家此前在资本市场毫无加密痕迹的企业,从默默无闻一跃成为全球最大的以太坊机构持有者,超越了SharpLink,站上行业巅峰。 BitMine的操作节奏堪称精密。在其爆发式增长的…

    2025年12月9日
    000
  • 比特币今年能涨到多少?btc2025年下半年还能涨多少

    比特币2025年下半年价格预计在$110,000至$200,000区间波动,渣打、Galaxy Digital等机构看好其突破$185,000甚至$250,000,技术面显示多头主导,机构资金持续流入、减半效应及监管利好构成主要驱动,但需警惕美联储政策、监管不确定性及市场竞争带来的风险,建议关注关键…

    2025年12月9日
    000
  • sol今年能涨到多少?Solana 2025年下半年还能涨多少

    Solana 2025年下半年价格预计在$180–$480区间波动,受技术升级、机构资金流入及ETF审批预期推动,关键阻力位$190突破或触发上涨,但代币解锁、监管风险与技术稳定性构成主要挑战。 Solana 2025年价格预测:下半年走势分析 综合市场分析与权威机构预测,Solana(SOL)在2…

    2025年12月9日
    000
  • 比特币的区块链架构,深度剖析

    比特币区块链的核心在于去中心化架构,其由区块、交易、哈希值和默克尔树构成,通过工作量证明实现共识,确保安全与不可篡改,交易经签名验证后由矿工打包上链,地址与私钥保障资产安全,扩容方案如SegWit和闪电网络提升性能,主流平台如Binance、OKX、火币支持交易流通。 在数字货币的浩瀚宇宙中,比特币…

    2025年12月9日
    000
  • 解析区块链,为虚拟货币投资保驾护航

    真正理解区块链技术是投资者构筑安全防线和认知壁垒的关键,通过掌握其去中心化、不可篡改性、透明性和智能合约四大核心特性,深入分析项目白皮书中的问题解决能力、技术架构与共识机制、代币经济模型,结合链上数据如活跃地址、交易量、TVL及巨鲸动向,并查验项目是否经过专业第三方安全审计且漏洞已修复,最终选择具备…

    2025年12月9日 好文分享
    000
  • 什么是Xeleb Protocol(XCX币)?值得投资吗?XCX币功能、代币经济模型及路线图介绍

    目录 xeleb protocol的定位和pou模型到底是什么? PoU 如何贯穿产品路径? XCX 代币经济是如何分配的,效用是否形成闭环? 如何让人工智能代理产生“可验证的效用”? 它和传统的“流量分成”有什么不同? 与其他AI平台相比,Xeleb Protocol的边界和优势在哪里? 生态系统…

    2025年12月8日
    000
  • 有实际产品或强大社区的潜力币种有哪些

    比特币、以太坊、Solana、Cardano、Polkadot、Cosmos、Chainlink、Uniswap、Aave、Flow、TON及DeFAI项目因具备实际应用或强大社区支持而具备长期潜力,这些项目在技术落地、生态活跃度与跨链互操作性等方面表现突出,覆盖支付、智能合约、DeFi、NFT、A…

    2025年12月8日
    000
  • 币圈一万变一千万的实战记录 小资金如何玩转大行情?

    在数字货币的浪潮中,资本的增值速度可以突破传统金融的想象边界。一万到一千万的跃迁,听起来如同天方夜谭,但它并非完全没有路径可循。这背后并非单纯的运气,而是一套结合了敏锐洞察、严格纪律与非常规操作的综合战法。这段记录并非投资建议,仅为对一种特定路径的复盘与剖析,揭示小资金在巨大行情波动中可能撬动的惊人…

    2025年12月8日
    000
  • 如何在币圈用1万元一年变百万?牛市布局全指南!

    在加密货币这个充满机遇与挑战的市场中,利用有限的本金实现资产的指数级增长,是许多参与者追求的目标。一万元本金在一年内增长至百万,这听起来像是天方夜谭,但在特定的市场周期,配合精准的策略和严格的执行,并非完全没有可能。这需要对市场有深刻的理解,对风险有清醒的认识,并且具备超乎常人的耐心与决断力。以下是…

    2025年12月8日
    000
  • 如何挑选潜力币种?选择大于努力,币种挑选有多重要?

    目录 数字货币投资,币种挑选有多重要?挑出极具潜力的币种挑币的有效办法总结 数字货币投资,币种挑选有多重要? 假设大家都作为韭菜在上一轮牛市顶点的2018年1月1日入场。买EOS,2018年1月1日价格是8.87美元;今天(2021年7月28日)3.76美元,跌了57.6%。持有3年多的时候,本金还…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信