将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多的集中在更小的模型上,不过这些模型是在更多数据上训练而成,因而在推理时更容易使用。

举例来说,参数量为 7B 的 LLaMA 在 1T token 上训练完成,尽管平均性能略低于 GPT-3,但参数量是后者的 1/25。不仅如此,当前的压缩技术还能将这些模型进一步压缩,在保持性能的同时还能大幅减少内存需求。通过这样的改进,性能良好的模型可以在终端用户设备(如笔记本)上进行部署。

然而,这又面临另一个挑战,即想要将这些模型压缩到足够小的尺寸以适应这些设备,怎样才能兼顾生成质量。研究表明,尽管压缩后的模型生成的答案准确率还可以,但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的,依赖于先前生成的 token,小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量,关键是设计出低位宽的量化方法,与 16 位模型相比不会降低预测性能。

然而,将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失,特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。

为了解决准确性问题,来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(Sparse-Quantized Representation,稀疏 – 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。

SpQR 通过识别和隔离异常权重来工作,这些异常权重会导致特别大的量化误差,研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM,而不会有任何性能下降,同时还能提高 15% 的速度。

SpQR 算法高效,既可以将权重编码为其他格式,也可以在运行时进行有效地解码。具体来说,该研究为 SpQR 提供了一种高效的 GPU 推理算法,可以比 16 位基线模型更快地进行推理,同时实现了超过 4 倍的内存压缩收益。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

论文地址:https://arxiv.org/pdf/2306.03078.pdf项目地址:https://github.com/Vahe1994/SpQR

方法

该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征(SpQR),可以将精确预训练的 LLM 压缩到每个参数 3-4 位,同时保持近乎无损。

具体来说,该研究将整个过程分为两步。第一步是异常值检测:该研究首先孤立了异常值权重,并证明其量化会导致高误差:异常值权重保持高精度,而其他权重以低精度(例如 3 位的格式)存储。然后,该研究以非常小的组大小实现分组量化(grouped quantization)的变体,并表明量化尺度本身可以被量化为 3 位表征。

SpQR 极大地减少了 LLM 的内存占用,而不会降低准确性,同时与 16 位推理相比,LLM 的生成速度快了 20%-30%。

此外,该研究发现,权重矩阵中敏感权重的位置不是随机的,而是具有特定的结构。为了在量化过程中突出显示其结构,该研究计算了每个权重的敏感度,并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

该研究对量化过程进行了两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。下图 3 为 SpQR 的总体架构:

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

下表为 SpQR 量化算法,左边的代码片段描述了整个过程,右边的代码片段包含了二级量化和查找异常值的子程序:

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

实验

该研究将 SpQR 与其他两种量化方案进行了比较:GPTQ、RTN(rounding-to-nearest),并用两个指标来评估量化模型的性能。首先是困惑度的测量,所用数据集包括 WikiText2、 Penn Treebank 以及 C4;其次是在五个任务上的零样本准确率:WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。

主要结果。图 1 结果显示,在相似的模型大小下,SpQR 的性能明显优于 GPTQ(以及相应的 RTN),特别是在较小的模型上。这种改进得益于 SpQR 实现了更多的压缩,同时也减少了损失退化。

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

表 1、表 2 结果显示,对于 4 位量化,与 GPTQ 相比,SpQR 相对于 16 位基线的误差减半。

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

表 3 报告了 LLaMA-65B 模型在不同数据集上的困惑度结果。

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

最后,该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch(cuSPARSE)中实现的算法进行了比较,结果如表 4 所示。可以看到,尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快,但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

以上就是将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/527893.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 09:04:24
下一篇 2025年11月9日 09:05:43

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • js中if条件太多会不会影响性能

    if条件过多可能影响javascript性能,但关键在于内部代码的效率。优化方法包括:1.用switch语句替代多个if判断,提升清晰度与执行速度;2.使用查找表(lookup table)实现快速条件匹配;3.重构逻辑减少冗余判断,利用短路求值避免不必要的操作;4.拆分复杂条件表达式并调整顺序以优…

    2025年12月5日 web前端
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • APS-C 画幅性能王者 富士 X-H2 带来全面摄影体验

    在富士的 x 系列无反相机中,如果要说性能最顶的莫过于 x-h2,即使放在整个 aps-c 画幅的无反相机市场,这台相机的性能也妥妥属于第一梯队。这是一台拥有 4000 万像素成像能力,并且可以拍摄 8k 超高清视频的无反相机,同时强大的对焦系统和防抖性能,也让其足以笑傲江湖。今天我们就为追求性能的…

    2025年12月5日 硬件教程
    000
  • 英伟达消费级 APU 曝光 游戏性能可与笔记本版 RTX4070 媲美

    重写文本: 英伟达即将推出一款消费级 APU,据悉其游戏性能可媲美 65W 版 GeForce RTX 4070 笔记本显卡。该 APU 预计于 2025 年底至 2026 年初正式发布,旨在抢占 AMD Sound Wave 产品的市场份额。新 APU 将配备强大的 NPU(神经处理单元),以提升…

    2025年12月4日
    100
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • mysql临时表如何应用_mysql临时表性能考虑

    临时表适用于分步处理复杂查询、避免重复计算等场景,通过CREATE TEMPORARY TABLE创建,仅当前会话可见,会话结束自动销毁;需注意内存与磁盘存储转换、合理添加索引、避免频繁创建,并可通过CTE或派生表替代以优化性能。 MySQL临时表是一种在会话期间存在的特殊表,它只对当前连接可见,常…

    2025年12月2日 数据库
    000
  • Golang传递指针和传递值类型性能差别大吗

    传递指针和值的性能差异取决于数据大小和场景。小对象差异可忽略,大结构体传指针更高效,避免复制开销,但需防范nil风险;值传递语义清晰,适合小对象;修改原值必须用指针;建议结合基准测试与pprof分析。 在Go语言中,传递指针和传递值类型的性能差异是否明显,取决于具体的数据结构大小和使用场景。对于小对…

    2025年12月2日 后端开发
    000
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • mysql limit的分页用法与性能优化

    mysql limit的分页用法与性能优化

    数据库 2025年12月2日
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 缓存策略设计与应用性能提升

    缓存设计需结合业务特点,采用多级缓存结构(本地、分布式、CDN)提升性能;通过Cache-Aside等策略平衡一致性与效率,设置TTL与LRU等机制防止内存溢出,并借助监控调优确保系统稳定。 在现代应用开发中,性能是用户体验的核心指标之一。缓存作为提升系统响应速度、降低数据库负载的关键手段,其策略设…

    2025年12月2日 后端开发
    000
  • 文件IO操作性能优化实践

    文件IO优化需减少系统调用、提升吞吐量,核心方法包括:使用缓冲流(如Java的BufferedInputStream、C的setvbuf)合并小IO;批量写入与预分配空间以降低磁盘开销;内存映射(mmap/MappedByteBuffer)加速大文件访问;结合异步IO(如io_uring)与多线程并…

    2025年12月2日 后端开发
    000
  • Golang CPU性能瓶颈分析与优化

    首先使用pprof定位CPU热点函数,再针对频繁内存分配、低效数据结构、锁竞争、高复杂度算法等问题优化,结合并发控制与运行时调优,逐步提升性能。 Go语言以其高效的并发模型和简洁的语法广受开发者青睐,但在高负载场景下,CPU使用率过高常常成为系统性能瓶颈。定位并优化这些瓶颈,是提升服务吞吐量和响应速…

    2025年12月2日 后端开发
    000
  • 苹果发布 Safari 技术预览版 223:聚焦稳定性与性能优化

    近日,苹果公司推出了 safari 技术预览版的最新版本 223,该版本属于其专为开发者和早期用户打造的实验性浏览器更新。本次更新的重点在于修复已知问题并提升性能表现,目的是为未来正式版 safari 浏览器打下更坚实的基础。 自 2016 年首次发布以来,Safari 技术预览版一直是开发者测试 …

    2025年12月2日
    000
  • CSS中@import和link引入样式的性能差异

    使用标签引入css通常比@import更快更稳定,尤其在性能优化方面。1. 加载方式不同:让浏览器并行下载css文件,提升渲染速度;而@import需先下载主css再加载子文件,造成延迟。2. 兼容性与维护性:@import在旧版浏览器可能存在兼容问题,且难以用javascript控制,可通过dom…

    2025年12月2日 web前端
    000
  • sql中not in和not exists的区别 性能对比not in和not exists的优劣

    not exists 通常在大数据集上性能更好,且能正确处理 null 值,而 not in 在子查询结果集较小且无 null 值时更简洁。1. not in 将子查询结果加载到内存进行比较,数据量大或存在 null 时会导致性能下降或结果为空;2. not exists 对主查询每一行在子查询中验…

    2025年12月2日 数据库
    000

发表回复

登录后才能评论
关注微信