清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 1 : 量化模型的困惑度在 2bit 时迅速上升

近期,一篇由清华大学、哈尔滨工业大学合作发表在 arXiv 上的论文为突破这一阻碍带来了希望,在国内外学术圈引起了不小的关注。这篇论文也在一周前登上 huggingface 的热点论文,并被著名论文推荐师 AK 推荐。研究团队直接越过 2bit 这一量化级别,大胆地进行了 1bit 量化的尝试,这在模型量化的研究中尚属首次

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

论文标题:onebit: towards extremely low-bit large language models

论文地址:https://arxiv.org/pdf/2402.11295.pdf

作者提出的方法称作 「OneBit」,非常贴切地形容了这一工作的本质:把预训练大模型压缩到真正的 1bit。该论文提出了模型参数 1bit 表示的新方法,以及量化模型参数的初始化方法,并通过量化感知训练(QAT)把高精度预训练模型的能力迁移至 1bit 量化模型。实验表明,这一方法能够在极大幅度压缩模型参数的同时,保证 LLaMA 模型至少 83% 的性能。

作者指出,当模型参数压缩至 1bit 后,矩阵乘法中的 「元素乘」将不复存在,取而代之的是更快速的 「位赋值」操作,这将大大提升计算效率。这一研究的重要意义在于,它不但跨越了 2bit 量化的鸿沟,也使在 PC 和智能手机上部署大模型成为可能。

已有工作的局限性

模型量化主要通过把模型的 nn.Linear 层(Embedding 层和 Lm_head 层除外)转化为低精度表示实现空间压缩。此前工作 [1,2] 的基础是利用 Round-To-Nearest(RTN)方法把高精度浮点数近似映射到附近的整数网格。这可以被表示成清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

然而基于 RTN 的方法在极低位宽时(3bit 以下)存在严重的精度损失问题,量化后的模型能力损失十分严重。特别是,量化后参数以 1bit 表示时,RTN 中的缩放系数 s 和零点 z 会失去实际意义。这导致基于 RTN 的量化方法在 1bit 量化时几乎失效,难以有效地保留原模型的性能。

此外,此前的研究中也曾对 1bit 模型可能采用什么结构进行过探索。几个月前的工作 BitNet [3] 通过让模型参数通过 Sign (・) 函数并转为 + 1/-1 来实现 1bit 表示。但这一方法存在性能损失严重、训练过程不稳定的问题,限制了其实际应用。

OneBit 框架

OneBit 的方法框架包括全新的 1bit 层结构、基于 SVID 的参数初始化方法和基于量化感知知识蒸馏的知识迁移。

1. 新的 1bit 结构

OneBit 的终极目标是将 LLMs 的权重矩阵压缩到 1bit。真正的 1bit 要求每个权重值只能用 1bit 表示,即只有两种可能的状态。作者认为,在大模型的参数中,有两个重要因素都必须被考虑进来,那就是浮点数的高精度和参数矩阵的高秩。

因此,作者引入两个 FP16 格式的值向量以补偿由于量化导致的精度损失。这种设计不仅保持了原始权重矩阵的高秩,而且通过值向量提供了必要的浮点精度,有助于模型的训练和知识迁移。1bit 线性层的结构与 FP16 高精度线性层的结构对比如下图:

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 3 : FP16 线性层与 OneBit 线性层的对比

左侧的 (a) 是 FP16 精度模型结构,右侧的 (b) 是 OneBit 框架的线性层。可见,在 OneBit 框架中,只有值向量 g 和 h 保持 FP16 格式,而权重矩阵则全部由 ±1 组成。这样的结构兼顾了精度和秩,对保证稳定且高质量的学习过程很有意义。

OneBit 对模型的压缩幅度究竟如何?作者在论文中给了一个计算。假设对一个 4096*4096 的线性层进行压缩,那么 OneBit 需要一个 4096*4096 的 1bit 矩阵,和两个 4096*1 的 16bit 值向量。这里面总的位数为 16,908,288,总的参数个数为 16,785,408,平均每个参数占用仅仅约 1.0073 个 bit。这样的压缩幅度是空前的,可以说是真正的 1bit 大模型。

2. 基于 SVID 初始化量化模型

为了使用充分训练好的原模型更好地初始化量化后的模型,进而促进更好的知识迁移效果,作者提出一种新的参数矩阵分解方法,称为 「值 – 符号独立的矩阵分解(SVID)」。这一矩阵分解方法把符号和绝对值分开,并把绝对值进行秩 – 1 近似,其逼近原矩阵参数的方式可以表示成:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

可图大模型 可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型 32 查看详情 可图大模型

这里的秩 – 1 近似可以通过常见的矩阵分解方式实现,例如奇异值分解(SVD)和非负矩阵分解(NMF)。而后,作者在数学上给出这种 SVID 方法可以通过交换运算次序来和 1bit 模型框架相匹配,进而实现参数初始化。并且,论文还证明了符号矩阵在分解过程中确实起到了近似原矩阵的作用。

3. 通过知识蒸馏迁移原模型能力

作者指出,解决大模型超低位宽量化的有效途径可能是量化感知训练 QAT。在 OneBit 模型结构下,通过知识蒸馏从未量化模型中学习,实现能力向量化模型的迁移。具体地,学生模型主要接受教师模型 logits 和 hidden state 的指导。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

 

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

 

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

训练时,值向量和矩阵的值会被更新。模型量化完成后,直接把 Sign (・) 后的参数保存下来,在推理和部署时直接使用。

实验及结果

OneBit 与 FP16 Transformer、经典的训练后量化强基线 GPTQ、量化感知训练强基线 LLM-QAT 和最新的 2bit 权重量化强基线 OmniQuant 进行了比较。此外,由于目前还没有 1bit 权重量化的研究,作者只对自己的 OneBit 框架使用了 1bit 权重量化,而对其他方法采取 2bit 量化设置,属于典型的 「以弱胜强」。

在模型选择上,作者也选择了从 1.3B 到 13B 不同大小、OPT 和 LLaMA-1/2 不同系列的模型来证明 OneBit 的有效性。在评价指标上,作者沿用了以往模型量化的两大评价维度:验证集的困惑度和常识推理的 Zero-shot 准确度。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

表 1 : OneBit 与基线方法的效果比较(OPT 模型与 LLaMA-1 模型)

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

表 2 : OneBit 与基线方法的效果比较(LLaMA-2 模型)

表 1 和表 2 展示出了 OneBit 相比于其他方法在 1bit 量化时的优势。就量化模型在验证集的困惑度而言,OneBit 与 FP16 模型最为接近。就 Zero-shot 准确度而言,除 OPT 模型的个别数据集外,OneBit 量化模型几乎取得了最佳的性能。其余的 2bit 量化方法在两种评价指标上呈现较大的损失。

值得注意的是,OneBit 在模型越大时,效果往往越好。也就是说,随着模型规模增大,FP16 精度模型在困惑度降低上收效甚微,但 OneBit 却表现出更多的困惑度下降。此外,作者还指出量化感知训练对于超低位宽量化或许十分有必要。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 4 : 常识推理任务对比

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 5 : 世界知识对比

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 6 : 几种模型的空间占用和平均位宽

图 4 – 图 6 还对比了几类小模型的空间占用和性能损失,它们是通过不同的途径获得的:包括两个充分训练的模型 Pythia-1.0B 和 TinyLLaMA-1.1B,以及通过低秩分解获得的 LowRank Llama 和 OneBit-7B。可以看出,尽管 OneBit-7B 有最小的平均位宽、占用最小的空间,它在常识推理能力上仍然优于不逊于其他模型。作者同时指出,模型在社会科学领域面临较严重的知识遗忘。总的来说,OneBit-7B 展示出了其实际应用价值。正如图 7 所展示的,OneBit 量化后的 LLaMA-7B 模型经过指令微调后,展示出了流畅的文本生成能力。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 7 : OneBit 框架量化后的 LLaMA-7B 模型的能力

讨论与分析

1. 效率

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

表 3 : OneBit 在不同 LLaMA 模型的压缩比

表 3 给出的是 OneBit 对不同规模 LLaMA 模型的压缩比。可以看出,OneBit 对模型的压缩比均超过 90%,这一压缩能力是史无前例的。其中值得注意的是,随着模型增大,OneBit 的压缩比越高,这是由于 Embedding 层这种不参与量化的参数占比越来越小。前文提到,模型越大,OneBit 带来的性能增益越大,这显示出 OneBit 在更大模型上的优势。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 8 : 模型大小与性能的权衡

虽然超低比特量化可能会导致一定的性能损失,但如图 8 所示,它在大小和性能之间达到了良好的平衡。作者认为,压缩模型的大小十分重要,特别是在移动设备上部署模型时。

此外,作者还指出了 1bit 量化模型在计算上的优势。由于参数是纯二进制的,可以用 0/1 在 1bit 内表示,这毫无疑问地节省大量的空间。高精度模型中矩阵乘法的元素相乘可以被变成高效的位运算,只需位赋值和加法就可以完成矩阵乘积,非常有应用前景。

2. 鲁棒性

二值网络普遍面临训练不稳定、收敛困难的问题。得益于作者引入的高精度值向量,模型训练的前向计算和后向计算均表现的十分稳定。BitNet 更早地提出 1bit 模型结构,但该结构很难从充分训练的高精度模型中迁移能力。如图 9 所示,作者尝试了多种不同的学习率来测试 BitNet 的迁移学习能力,发现在教师指导下其收敛难度较大,也在侧面证明了 OneBit 的稳定训练价值。

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

图 9 : BitNet 在多种不同学习率下的训练后量化能力

论文的最后,作者还建议了超低位宽未来可能得研究方向。例如,寻找更优的参数初始化方法、更少的训练代价,或进一步考虑激活值的量化。

更多技术细节请查看原论文。

以上就是清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/621297.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:36:48
下一篇 2025年11月11日 06:39:43

相关推荐

  • HTML如何压缩?优化文件大小的方法

    html压缩通过移除空白字符、注释和冗余标签,在保证结构完整的前提下减小文件大小;2. 使用gzip压缩和构建工具插件可自动化该过程;3. 压缩能提升加载速度,有利于seo排名和爬虫索引;4. 需注意避免破坏html结构、增加调试难度及兼容性问题;5. 结合图片优化、cdn、缓存、代码优化和延迟加载…

    2025年12月22日
    000
  • 为 SEO 优化:HTML 文件到 ZIP 压缩的终极解决方案

    html文件压缩至zip格式的最佳解决方案是使用js-zip库或node.js:使用js-zip库:安装依赖项,利用javascript代码压缩html文件,并生成zip文件。使用node.js:使用jszip库,创建js-zip实例,添加html文件,并生成zip文件。实战应用:压缩html文件可…

    2025年12月22日
    000
  • 网站性能优化有哪些方法

    网站性能优化有哪些方法,需要具体代码示例 随着互联网的迅速发展,网站性能优化变得日益重要。一个高性能的网站,不仅能提升用户体验,还可以吸引更多的访问者并提高转化率。本文将介绍一些常用的网站性能优化方法,并提供具体的代码示例,帮助读者更好地理解。 压缩和合并静态资源静态资源的压缩和合并可以减少网页的加…

    2025年12月22日
    000
  • 网站优化的关键要素

    随着互联网的迅猛发展,各类网站的数量不断增加,用户对网站性能的要求也越来越高。一个高效稳定的网站不仅可以提供良好的用户体验,同时也能增加用户的粘性和转化率。因此,网站性能优化成为了每个网站开发者必须关注的重要问题。 那么,网站性能优化必须注意的要点有哪些呢? 首先,压缩和优化页面资源是提高网站性能的…

    2025年12月22日
    000
  • 实用的建议和经验,提高网站性能

    随着互联网的发展,网站已经成为人们生活中不可或缺的一部分。然而,随着用户数量的不断增加,网站的性能问题也变得越来越突出。为了提高用户体验,优化网站的性能成为了每个网站开发者和管理员所关注的问题。本文将分享一些实用的建议和经验,帮助你优化网站的性能。 一、压缩和优化图片:图片通常是网站加载速度较慢的主…

    2025年12月22日
    000
  • 揭示提升Web网站性能的有效优化技巧

    高效优化web网站性能的秘诀揭秘 随着互联网的普及和发展,web网站的性能优化越来越受到重视。一个高效优化的web网站可以提供更好的用户体验,提升用户留存率和转化率,同时还可以减少服务器负载和网络带宽的消耗。那么,究竟有哪些秘诀可以帮助我们实现高效优化呢? 压缩和合并资源文件Web网站中的资源文件,…

    2025年12月22日
    000
  • 优化网站性能和提升用户体验的有效方法

    如何提高网站性能并提升用户体验 随着互联网的发展,网站已成为人们获取信息、交流和消费的重要场所。而一个高性能的网站能够给用户带来更好的体验,提升用户粘性,增加访问量和转化率。本文将介绍一些提高网站性能和提升用户体验的方法。 一、优化网站的加载速度 网站的加载速度是影响用户体验的重要因素之一。用户在访…

    2025年12月22日
    000
  • 网站性能优化的关键技巧

    随着互联网的快速发展,网站的性能优化变得越来越重要。一个高性能的网站能够吸引更多的访问者,并提供更好的用户体验。本文将介绍一些关键的网站性能优化技巧,帮助网站管理员提升网站的性能。 一、压缩和缩小文件大小 文件的大小对网站的加载速度有很大的影响。可以使用压缩技术来减小文件的大小,如使用Gzip压缩H…

    2025年12月22日
    000
  • 提升网站性能的有效工具和技术

    优化网站性能的有效工具和技术 随着互联网的发展,网站已经成为各行各业宣传、展示和交互的主要平台。然而,随之而来的也是对网站性能要求的增加。用户对于网站的访问速度和加载速度要求越来越高,而且这也直接关系到网站的用户体验和搜索引擎排名。因此,优化网站性能已经成为网站开发者和管理员的关键任务之一。本文将介…

    2025年12月22日
    000
  • 优化网站性能的五个关键技巧

    随着互联网的快速发展,现代社会已经离不开各种各样的网站。然而,对于网站开发者和运营者来说,一个高性能的网站是至关重要的。一个快速响应、加载速度快的网站不仅可以提供更好的用户体验,还能提高搜索引擎优化的排名。本文将介绍五种关键技巧,帮助提升网站性能。 首先,压缩网页内容是提升网站性能的重要一环。大多数…

    2025年12月21日
    000
  • 分享网站性能提升的实用技巧

    随着互联网的迅猛发展,越来越多的企业、个人都开始建立自己的网站来展示和推广自己的产品、服务或者创意。然而,网站性能的优化一直是一个重要的挑战,因为一个快速、流畅的网站能够吸引更多的访问者,提高用户体验,从而促进业务增长。本文将分享一些提高网站性能的实用方法。 首先,压缩网页资源是提高性能的一种常见方…

    2025年12月21日
    000
  • 网站性能的关键策略: 掌握这些方法,让用户愿意久久停留!

    提升网站性能的秘籍:了解这些方法,让用户留连忘返! 在如今信息爆炸的时代,一个高性能的网站对于吸引用户、提升用户体验和增加用户粘性而言至关重要。随着互联网技术的不断发展,提升网站性能的方法也在不断地改进和优化。本文将为大家介绍一些提升网站性能的秘籍,帮助网站运营者使用户留连忘返。 首先,优化网站的加…

    2025年12月21日
    000
  • 五条必须遵守的优化网站性能策略

    优化网站性能的五个必备策略 随着互联网技术的不断发展和普及,网站已经成为企业和个人展示自己的重要窗口。然而,拥有一个美观和功能强大的网站并不足以保证用户的满意度。网站性能是用户体验的关键因素之一,一旦网站速度缓慢或响应时间过长,会导致访问者流失和交易失败。为了提升网站性能,以下是五个必备的优化策略。…

    2025年12月21日
    000
  • 网站性能优化的关键要点

    如何优化网站性能的重要注意事项 随着互联网的快速发展,越来越多的人开始关注网站的用户体验和性能。一个高效的网站不仅能够吸引更多的访问者,还能提升用户满意度和留存率。而网站性能优化则成为了实现这一目标的关键步骤。本文将介绍一些重要的注意事项,帮助您优化网站性能,提升用户体验。 压缩与优化图像图像通常是…

    2025年12月21日
    000
  • 高效优化网站性能的实用技巧

    网站性能优化是现代网站开发中非常重要的一环。一个优化良好的网站可以提供更好的用户体验,提高网站的可访问性和可用性。本文将介绍一些实用的网站性能优化技巧,帮助开发者提升网站的性能。 压缩和合并文件:将CSS和JavaScript文件进行压缩和合并,可以减少文件的大小,从而加快网站的加载速度。使用工具如…

    2025年12月21日
    000
  • 五个关键要点来提升网站性能

    随着互联网的快速发展,网站已经成为我们生活中不可或缺的一部分。然而,随之而来的是越来越多的网站竞争,用户对网站性能要求也越来越高。一个加载速度慢,响应缓慢的网站往往会失去用户的兴趣,降低用户体验,甚至影响到网站的排名。因此,网站性能优化成为了每个网站管理员都应该重视的问题。本文将介绍网站性能优化的五…

    2025年12月21日
    000
  • 提升网站性能的关键方法

    网站性能优化的必备策略 在如今数字化浪潮的背景下,网站已成为企业和个人在线展示业务的主要途径。然而,随着网站功能和复杂性的不断增加,用户的期望也与日俱增。没有快速加载速度和优秀的用户体验,一个网站很容易失去用户。因此,网站性能的优化变得至关重要。本文将介绍几个必备的策略来提高网站的性能。 第一策略:…

    2025年12月21日
    000
  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • HTML网页优化压缩的实现步骤

    想要对自己的html网页实现优化压缩的话需要检查5个方面,分别是,将table改为div布局,缩减精简div、span、ul li等系列标签,删除多余空格,表格类型布局时候适当使用table替代div布局,html网页gzip压缩,将table改为div布局 。下面给大家详细的介绍一下 尽量将tab…

    好文分享 2025年12月21日
    000
  • 如何压缩大型XML文件提高传输效率?

    答案:压缩大型XML文件需结合通用压缩算法与XML特定优化。首选Gzip平衡速度与压缩率,辅以去除空白、缩短标签名、属性替代元素等方法减小体积,还可采用二进制XML格式或分块传输提升效率,通过哈希校验保障数据完整性。 压缩大型XML文件,提升传输效率,核心在于减少文件体积,同时保证XML结构完整性。…

    2025年12月17日
    000

发表回复

登录后才能评论
关注微信