将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

程序猿 • 2025年11月9日 09:04:40 • 用户投稿 • 阅读 0

预训练大语言模型（LLM）在特定任务上的性能不断提高，随之而来的是，假如 prompt 指令得当，其可以更好的泛化到更多任务，很多人将这一现象归功于训练数据和参数的增多，然而最近的趋势表明，研究者更多的集中在更小的模型上，不过这些模型是在更多数据上训练而成，因而在推理时更容易使用。

举例来说，参数量为 7B 的 LLaMA 在 1T token 上训练完成，尽管平均性能略低于 GPT-3，但参数量是后者的 1/25。不仅如此，当前的压缩技术还能将这些模型进一步压缩，在保持性能的同时还能大幅减少内存需求。通过这样的改进，性能良好的模型可以在终端用户设备（如笔记本）上进行部署。

然而，这又面临另一个挑战，即想要将这些模型压缩到足够小的尺寸以适应这些设备，怎样才能兼顾生成质量。研究表明，尽管压缩后的模型生成的答案准确率还可以，但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的，依赖于先前生成的 token，小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量，关键是设计出低位宽的量化方法，与 16 位模型相比不会降低预测性能。

然而，将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失，特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。

为了解决准确性问题，来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR（Sparse-Quantized Representation，稀疏 – 量化表征），首次实现了 LLM 跨模型尺度的近无损压缩，同时达到了与以前方法相似的压缩水平。

SpQR 通过识别和隔离异常权重来工作，这些异常权重会导致特别大的量化误差，研究者将它们以更高的精度存储，同时将所有其他权重压缩到 3-4 位，在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM，而不会有任何性能下降，同时还能提高 15% 的速度。

SpQR 算法高效，既可以将权重编码为其他格式，也可以在运行时进行有效地解码。具体来说，该研究为 SpQR 提供了一种高效的 GPU 推理算法，可以比 16 位基线模型更快地进行推理，同时实现了超过 4 倍的内存压缩收益。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2306.03078.pdf项目地址：https://github.com/Vahe1994/SpQR

方法

该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征（SpQR），可以将精确预训练的 LLM 压缩到每个参数 3-4 位，同时保持近乎无损。

具体来说，该研究将整个过程分为两步。第一步是异常值检测：该研究首先孤立了异常值权重，并证明其量化会导致高误差：异常值权重保持高精度，而其他权重以低精度（例如 3 位的格式）存储。然后，该研究以非常小的组大小实现分组量化（grouped quantization）的变体，并表明量化尺度本身可以被量化为 3 位表征。

SpQR 极大地减少了 LLM 的内存占用，而不会降低准确性，同时与 16 位推理相比，LLM 的生成速度快了 20%-30%。

此外，该研究发现，权重矩阵中敏感权重的位置不是随机的，而是具有特定的结构。为了在量化过程中突出显示其结构，该研究计算了每个权重的敏感度，并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。

该研究对量化过程进行了两个改变：一个用于捕捉小的敏感权重组，另一个用于捕捉单个的异常值。下图 3 为 SpQR 的总体架构：

下表为 SpQR 量化算法，左边的代码片段描述了整个过程，右边的代码片段包含了二级量化和查找异常值的子程序：

实验

该研究将 SpQR 与其他两种量化方案进行了比较：GPTQ、RTN（rounding-to-nearest），并用两个指标来评估量化模型的性能。首先是困惑度的测量，所用数据集包括 WikiText2、 Penn Treebank 以及 C4；其次是在五个任务上的零样本准确率：WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。

主要结果。图 1 结果显示，在相似的模型大小下，SpQR 的性能明显优于 GPTQ（以及相应的 RTN），特别是在较小的模型上。这种改进得益于 SpQR 实现了更多的压缩，同时也减少了损失退化。

表 1、表 2 结果显示，对于 4 位量化，与 GPTQ 相比，SpQR 相对于 16 位基线的误差减半。

表 3 报告了 LLaMA-65B 模型在不同数据集上的困惑度结果。

最后，该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch（cuSPARSE）中实现的算法进行了比较，结果如表 4 所示。可以看到，尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快，但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。

以上就是将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/527893.html

kite llama 性能模型

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在云计算中使用 Java 框架的最佳实践

上一篇 2025年11月9日 09:04:33

相册里的照片彻底删除了怎么找回来超全的5个方法

下一篇 2025年11月9日 09:04:42

好文分享

静态重定位技术的优势与发展前景的研究

探究静态重定位技术的优势与发展前景技术的不断进步为我们带来了很多方便和效率，其中之一就是静态重定位技术。静态重定位技术是一种将程序加载到内存中的技术，通过修改程序中的地址，使其能够在不同的内存位置运行。本文将探究静态重定位技术的优势以及发展前景，并提供一些具体的代码示例作为参考。静态重定位技术有…

程序猿
2025年12月24日
3000
好文分享

掌握网页性能受绘制和布局的影响

了解重绘和回流对网页性能的影响，需要具体代码示例简介：网页的性能是用户体验的关键因素之一。在优化网页性能的过程中，了解重绘和回流的概念及其对网页性能的影响非常重要。本文将详细讲解重绘和回流的含义，并举例说明它们对网页性能的影响。同时，提供一些优化的技巧和建议，以减少重绘和回流的次数，从而提升网页性…

程序猿
2025年12月24日
1000
好文分享

通过使用Web标准，提升网页性能与用户体验的方法

随着互联网的快速发展，越来越多的企业和个人都开始关注网页的性能和用户体验。一方面，良好的网页性能可以提高网站的可访问性和搜索引擎排名，另一方面，优秀的用户体验可以增加用户的黏性和转化率。而借助Web标准来优化网页性能与用户体验，则成为现如今的一种主流方法。那么，如何利用Web标准来优化网页性能与用…

程序猿
2025年12月24日
0000
好文分享

CSS网页布局优化：提高网页加载速度和性能

CSS 网页布局优化：提高网页加载速度和性能，需要具体代码示例随着互联网的发展，用户对于网页加载速度和性能的要求越来越高。而对于网页开发者来说，优化网页布局是提高网页加载速度和性能的重要一环。在本文中，我们将分享一些实用的 CSS 优化技巧，并提供具体的代码示例。选择合适的布局方式合适的布局方式…

程序猿
2025年12月24日
0000
好文分享

如何使用CSS3动画功能提升网页性能和用户体验

如何使用CSS3动画功能提升网页性能和用户体验在如今的互联网时代，网页设计已经成为了人们经常接触的一种艺术形式。而其中，动画效果在网页设计中起到了至关重要的作用，可以为用户呈现出更加生动、丰富的内容，提升用户的使用体验。然而，过多或不适当的动画效果也可能会给网页性能和用户体验带来负面影响。本文将介…

程序猿
2025年12月24日
3000
提高css性能的方法

这篇文章主要介绍了css性能优化提高css性能的方法，不规范的css会导致很多性能问题，所以学习掌握css性能优化技巧是非常必要的，对css性能优化知识感兴趣的朋友一起学习吧不规范的css会导致很多性能问题，这些问题可能在一些小的项目中不够明显，但是在大型项目中就会显现出来。 css匹配原理在优…

程序猿
好文分享 2025年12月24日
0000
好文分享

vscode运行html慢怎么办_解vscode运行html慢问题【技巧】

使用Live Server插件启动本地服务器预览HTML，禁用非必要扩展以释放资源，优化大体积静态文件引入方式，清除浏览器缓存并切换至高性能浏览器，调整VSCode自动保存与文件监听设置，可显著提升加载速度。如果您在使用VSCode运行HTML文件时发现加载或预览速度较慢，可能是由于插件配置、浏览…

程序猿
2025年12月23日
0000
用户投稿

前端后端开发的发展历程与趋势展望

随着互联网的迅猛发展和信息技术的日新月异，前端和后端开发作为两个重要的IT领域在过去几十年中也取得了巨大的进步。本文将探讨前端后端开发的发展历程，分析当前的发展趋势，并展望未来的发展方向。一、前端后端开发的发展历程早期阶段在互联网刚刚兴起的时期，网站开发主要关注内容的呈现，前端开发工作主要集中在…

程序猿
2025年12月22日
0000
用户投稿

如何评估网站性能优化的关键因素：衡量网站性能优化效果的方法

提升网站性能的关键指标：如何衡量网站性能的优化效果？随着互联网的飞速发展，网站已经成为人们获取信息、进行购物和娱乐的一个重要平台。然而，当网站访问变得缓慢或不可靠时，用户会感到不满，并可能选择离开。因此，提升网站性能是至关重要的。但是，如何衡量网站性能的优化效果呢？本文将介绍一些关键的指标。一：…

程序猿
2025年12月22日
0000
用户投稿

优化前端工程：提升页面性能和用户满意度，有效解决页面重绘和回流问题

前端工程优化：应对页面重绘和回流，提升页面性能和用户满意度，需要具体代码示例随着互联网技术的快速发展，越来越多的企业和个人开始意识到网页性能的重要性。优化前端工程不仅可以提升网站的加载速度，更能够增加用户的满意度和提升用户体验。而在前端工程优化中，处理页面重绘和回流是一个非常关键的问题。页面重绘…

程序猿
2025年12月21日
0000
用户投稿

性能受回流和重绘的差异的影响程度

回流和重绘的差异对性能的影响，需要具体代码示例在前端开发中，我们经常会遇到需要对页面进行修改的情况，比如改变元素的样式、大小或位置等。然而，这些改变并不是无成本的，它们会引发浏览器的回流和重绘操作，对页面的性能产生影响。回流（reflow）和重绘（repaint）是浏览器在对页面进行修改时的两种…

程序猿
2025年12月21日
0000
用户投稿

性能消耗比较：回流与重绘哪个更耗费资源？

回流与重绘：哪个更耗费性能？在前端开发中，性能优化是一个重要的议题。其中一个性能瓶颈是浏览器的回流(reflow)和重绘(repaint)操作。在这篇文章中，我们将探讨回流与重绘的定义，并通过具体的代码示例来比较它们的性能损耗。回流是指浏览器重新计算页面元素的位置和几何属性的过程。当布局发生改变…

程序猿
2025年12月21日
0000
用户投稿

网页性能受回流和重绘的影响

回流和重绘对网页性能的影响，需要具体代码示例随着互联网的飞速发展，网页性能成为了一个不容忽视的问题。用户对于网页的加载速度和交互流畅性有着越来越高的要求。而回流和重绘作为网页渲染的关键环节，对网页性能有着重要影响。了解回流和重绘的原理，并针对性地优化代码，可以极大地提升网页的性能和用户体验。首先…

程序猿
2025年12月21日
0000
用户投稿

优化页面性能：重绘、重排和回流的最佳选择

重绘、重排和回流：如何选择最佳方案？在前端开发中，优化网页性能是一个非常重要的任务。其中，最关键的一点就是如何减少页面的重绘、重排和回流，以提高页面渲染的速度和性能。本文将介绍什么是重绘、重排和回流，并讨论如何选择最佳方案来优化页面性能。重绘、重排和回流是浏览器在渲染页面时的一系列过程。重绘是指…

程序猿
2025年12月21日
0000
用户投稿

性能分析：回流与重绘的消耗对比

性能消耗：回流和重绘的对比分析，需要具体代码示例前言：在Web开发中，性能优化一直是一个重要的话题。在网页渲染过程中，最常见的性能消耗就是回流（reflow）和重绘（repaint）。本文将对回流和重绘进行详细对比分析，并给出具体的代码示例，以帮助读者更好地理解和优化性能。一、回流和重绘的概念解…

程序猿
2025年12月21日
0000
用户投稿

触发回流和重绘：它们的重要性在哪里？

回流和重绘：为什么它们重要？随着互联网的发展，越来越多的人开始在网上浏览网页、使用移动应用程序。对于开发者而言，如何提高网页和应用程序的性能成为重要的课题之一。在优化这些应用过程中，回流和重绘是两个必须要重点关注的方面。本文将详细介绍回流和重绘的概念，以及为什么它们对于性能优化如此重要。回流和重…

程序猿
2025年12月21日
0000
用户投稿

优化网页性能的关键因素：重新布局、重绘和回流

重排、重绘和回流：提升网页性能的关键因素随着互联网的快速发展，网页性能成为了用户体验的重要组成部分。而要提升网页性能，了解和优化网页渲染过程中的关键因素就显得尤为重要。在网页渲染过程中，重排、重绘和回流是直接影响性能的三个关键因素，本文将对其进行详细解析，并探讨优化的方法。重排，也被称为布局或回…

程序猿
2025年12月21日
0000
html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
优化HTML提高网页性能的方法

要想提高网页性能有很多办法，除了用js或者通过服务器的配置和css的调整来提高网页性能外，其实我们还可以通过HTML来提高网页性能。 HTML正在变得越来越大。排名前100的网站每个HTML页面大多在40K左右。亚马逊和雅虎使用上千个HTML页面。在youtube.com…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

JavaScript中的Web Assembly（WASM）带来了哪些性能突破？

WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力，显著提升Web性能；它与JavaScript互补，使浏览器能运行AutoCAD、Figma等重型应用，并支持4K视频处理、大模型训练等复杂任务，推动Web向桌面级体验演进。 WebAssembly（WASM）为JavaScript生态带来…

程序猿
2025年12月20日
0000

发表回复

登录后才能评论

将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

方法

关于作者

相关推荐

发表回复