ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代码已开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

icml 2024 | 脱离lora架构,训练参数大幅减少,新型傅立叶微调来了

论文地址:https://arxiv.org/abs/2405.03003
项目地址:https://github.com/Chaos96/fourierft
背景
大型基座模型在自然语言处理(NLP)和计算机视觉(CV)领域都获得了瞩目的成就。微调(Finetuning)大型基座模型,使其更加适应特殊的下游任务,成为了一项热门研究课题。然而,在模型越来越大,下游任务越来越多样的今天,微调整个模型带来的计算、存储消耗已大到不再能被接受。LoRA 采用低秩拟合微调增量的方案,成功降低了大量的此类消耗,但每个适应器(adapter)的大小仍然是不可忽视的。这激发了本文的核心问题:相比 LoRA,如何进一步大幅减少可训练参数?此外,一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵
方法
傅立叶基底在各类数据压缩应用中广泛使用,例如一维向量信号和二维图像的压缩。在这些应用中,稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理,作者推测模型权重的增量也可以被视为一种空域信号,其对应的频域信号可以通过稀疏表示来实现。
在这一假设的基础上,作者提出了一种新的方法,用于在频域中学习增量权重信号。具体来说,该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时,首先随机选择 n 个点作为有效的频域信号,然后将这些信号拼接成一个一维向量。在前向传播过程中,这个一维向量被用来通过傅立叶变换恢复空域矩阵;在反向传播过程中,由于傅里叶变换的可导性,可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量,同时保证了微调性能。通过这种方式,作者不仅实现了对大规模基础模型的高效微调,还展示了傅立叶变换在机器学习领域中的潜在应用价值。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

得益于傅立叶变换基底的高信息量,仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说,傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。
实验
1. 自然语言理解
作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调(FF,Full Finetuning)、Bitfit、适应器微调(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明,傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

2. 自然语言指令微调
大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示,傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果,进一步验证了傅里叶微调方法的通用性和有效性。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

3. 图像分类
作者在 Vision Transformer 上测试了傅里叶微调的性能,涵盖了 8 个常见的图像分类数据集。实验结果表明,虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著,但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

INFINITE ALBUM INFINITE ALBUM

面向游戏玩家的生成式AI音乐

INFINITE ALBUM 144 查看详情 INFINITE ALBUM

4. 突破低秩
在 GLUE 基准的 RTE 数据集上,FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

5.GPU 资源消耗
微调过程中,FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

结论
作者介绍了一种名为傅立叶微调的高效微调方法,通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化,显著降低了存储和计算需求。实验结果显示,傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异,与现有的低秩适应方法(如 LoRA)相比,傅立叶微调在保持或超过 LoRA 性能的同时,所需的可训练参数大幅减少。

以上就是ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/795155.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 15:43:01
下一篇 2025年11月26日 15:43:20

相关推荐

  • 比特币交易记录如何查询_比特币交易记录查询方法详解

    比特币交易记录存储在区块链上,公开透明,任何人都可通过特定工具查询。本文详细介绍查询比特币交易记录的方法,帮助用户快速获取交易信息,适合新手和资深投资者。 一、使用区块链浏览器 1、选择可靠浏览器:访问Blockchair或Blockchain.com等知名区块链浏览器,确保数据准确。 2、输入交易…

    2025年12月9日
    000
  • FreeStyle Classic(FST币)是什么?怎么样?FST币技术架构、代币经济学级路线图介绍

    目录 什么是 FreeStyle Classic?技术架构和游戏玩法代币经济学(FST):供应、合约和效用披露且可验证的信息推断效用验证提示生态系统合作伙伴关系和平台集成最新动态和社区信号路线图和里程碑游戏推出节奏资产循环跨链适配生态系统联合营销风险与合规说明常问问题关键要点 freestyle c…

    2025年12月9日
    000
  • 一文解读:哪四大因素让以太坊(ETH)跑赢比特币(BTC)

    过去几周,加密市场出现了一个值得关注的趋势:以太坊(eth)在表现上显著跑赢了比特币(btc)。 根据摩根大通(JPMorgan)最新发布的研报,华尔街分析师们将这一现象归因于四大核心因素——ETF 结构优化、企业财务部的增持、监管层态度缓和,以及未来质押功能的潜在放开。这些因素不仅解释了以太坊的近…

    2025年12月9日
    000
  • 欧e交易所网格交易教学:两种网格策略操作与优劣势介绍

    目录 OKX 网格策略是什么OKX 网格策略特色OKX 网格策略限制OKX 网格策略开单教学现货网格合约网格结语 市场横盘震荡也能赚钱?透过交易机器人实现24 小时自动低买高卖,让你无需盯盘,就能每个月打造被动收入。 这篇文章会介绍OKX 网格策略,也探讨它的特色与限制。此外,我们也会以手机版App…

    2025年12月9日 好文分享
    000
  • BNB币价将于2025年创下历史新高

    ‍ BNB在2025年8月再次刷新历史价格纪录。据Coingecko数据显示,该代币于8月14日一度触及864美元。随后涨势不减,仅一周时间便在8月21日攀升至881美元,创下新的价格高峰。 BNB有望在2025年8月持续刷新高点 此前,BNB曾在7月底短暂达到855美元,接近当时的最高水平。这一走…

    2025年12月9日
    000
  • 什么因素让以太坊跑赢比特币?一文分析四大原因

    过去几周,以太坊(ETH)的表现显著优于比特币(BTC)。 根据摩根大通(JPMorgan)最新发布的研报,华尔街分析师团队将这一趋势归因于四大关键因素:ETF结构优化、企业财务部门的增持、监管对流动性质押代币态度的缓和,以及ETF实物赎回机制的获批。 这些驱动因素不仅解释了ETH近期的强势行情,也…

    2025年12月9日
    000
  • 什么是Notcoin (NOT币)?NOT价格预测:2025、2026-2030年

    目录 什么是Notcoin (NOT)?Notcoin的主要特点:Notcoin (NOT) 历史技术优势市场表现与潜力未来前景Notcoin价格预测2025 年 Notcoin 价格预测Notcoin 价格预测长期展望 – 2026-2030 年预测Notcoin 代币的潜在高点和低点其他分析师对…

    2025年12月9日 好文分享
    000
  • OKB币价格预测:近期市场表现及未来涨幅潜力分析

    近期,okb(okx原生代币)价格持续上涨,突破200美元大关,创下历史新高。本文将对okb近期市场表现进行分析,并探讨其未来涨幅潜力。 一、OKB近期市场表现 根据最新数据,OKB当前价格为 $222.62,24小时内价格波动约为 +31.09%,显示出强劲的上涨势头。日内最高价为 $255.73…

    2025年12月9日
    000
  • 什么是Codatta(XNY币)?XNY代币经济学及价格预测2025、2026-2036年

    目录 摘要简介为什么您最近应该关注Codatta?Codatta 概述什么是Codatta (XNY)?以下是一些突出特点:Codatta 如何运作?关键数据类型实际应用数据资产化和主权XNY背后的技术团队与起源关于Codatta 的融资信息Codatta 的代币经济学分配明细:XNY 的发展前景和…

    2025年12月9日
    000
  • 什么是DEGEN?DEGEN价格预测:2025、2026-2030年

    目录 什么是DEGEN (DEGEN)?Degen如何运作当前市场状况影响DEGEN 价格的因素历史价格走势市值与成交量2025年展望Degen 值得买入吗?DEGEN 价格预测(2025-2030)2025 年DEGEN 价格预测2026 年DEGEN 价格预测2030 年DEGEN 价格预测未来…

    2025年12月9日
    000
  • OKB销毁后价格飙涨,涨势会持续多久?OKB币会突破300美元吗?

    OKB因其常规销毁计划的执行而引发市场广泛关注,其价格也随之出现显著上扬。这一现象并非偶然,而是其内在价值逻辑和通缩模型的直接体现。销毁机制通过从流通中永久移除一部分代币,有效减少了市场上的总供应量,当市场需求保持稳定或增长时,这种供需关系的变化往往会直接推动资产价格的提升。 欧易官网注册地址: 欧…

    2025年12月9日
    000
  • 什么是Bio Protocol? 值得关注的五大DAO介绍

    目录 什么是Bio Protocol?Bio Protocol 上的BioAgents 是什么?Bio Protocol 如何运作?Bio Protocol 协议中值得关注的五大DAO1. VitaDAO – 长寿研究2. CerebrumDAO – 大脑健康与神经科学3. …

    2025年12月9日 好文分享
    000
  • 大白话解释一下什么是稳定币

    稳定币是价格锚定美元等资产的数字货币,旨在解决比特币等币种价格波动大的问题,主要通过法币抵押(如USDT、USDC)、加密资产超额抵押(如DAI)和算法调节三种机制维持稳定,成为交易所内的通用交易媒介和资产避险工具。 大白话来说,稳定币就是一种价格非常稳定的数字货币。它的目标就是让自己的价格尽量钉死…

    2025年12月9日
    000
  • 什么是tokens?tokens怎么计算?

    Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。 Tokens可以被理解为人工智能模型处理文本时的基本单位。模型在理解和生成语言时,并不是直接处理单词或字符,而是先将文本分解成…

    2025年12月9日
    000
  • Hyperliquid合约交易所 11人撑起年入11亿美元的去中心化币安

    目录 Hyperliquid究竟是什么?一个“看似去中心化的中心化交易所”为何能迅速超越dYdX等传统永续合约平台? 最新资讯显示,根据 DeFiLlama 的统计数据,Hyperliquid 协议在过去30天内产生的收入约为9563万美元,年化收入预估高达11.47亿美元。项目团队仅由11名成员组…

    2025年12月9日
    000
  • 什么是TREE币 ?TREE价格预测2025, 2026-2030年

    目录 TREE币概述TREE币的功能与应用TREE币的市场表现当前市场状况和价格影响TREE价格的因素TREE币的未来前景TREE价格预测TREE价格预测2025-2026TREE价格预测2029-20302025-2030年价格预测表结论 treehouse finance及其原生代币tree在去…

    2025年12月9日
    000
  • 什么是Lightchain AI?优缺点、未来发展介绍

    什么是Lightchain AI? Lightchain AI 是一项颠覆性技术,将区块链的去中心化架构与前沿人工智能能力深度融合,打造出性能更强、更安全的系统。与传统集中式AI不同,Lightchain AI 支持去中心化AI应用在可扩展且安全的节点网络中运行。 通过将模型训练、预测分析和复杂计算…

    2025年12月9日
    000
  • 比特币网站哪个好 全球比特币网站2025排名

    随着数字货币市场的持续发展,选择一个安全可靠、功能全面的比特币交易网站是每位投资者的首要任务。本文综合评估了全球主流平台的交易深度、安全性、用户体验及产品生态,为您提供一份2025年全球比特币网站的权威排名,旨在帮助您快速筛选出最适合您交易需求的平台。 全球比特币网站2025年综合排名 1. 币安 …

    2025年12月9日
    000
  • 华尔街巨鲸吞食以太坊:35天购入83万枚ETH背后的定价权争夺战解读

    目录 两种血统,两种世界观:OG囤币与华尔街收割的哲学对决金融工程的降维打击:BitMine如何用35天重构ETH定价权新庄家代言人:Tom Lee与华尔街的叙事操控术生态重构:华尔街资本如何重塑ETH价值链‍ 一家原本在纳斯达克默默无闻的小公司,仅用35天就将以太坊(ETH)持仓从零暴力拉升至83…

    2025年12月9日
    000
  • 最值钱的虚拟货币排名top10推荐(2025最新版)

    比特币居首,以太坊、索拉纳、BNB、XRP、USDT、ADA、DOGE、SHIB、AVAX紧随其后,基于技术、生态与市场共识综合排名。 随着数字资产市场的不断成熟,虚拟货币的价值格局也在持续演变。本文旨在为投资者和爱好者梳理出2025年最具价值和潜力的十大虚拟货币,通过分析其技术基础、生态系统发展和…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信