阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

aixiv专栏长期致力于分享学术和技术前沿内容,已发表2000余篇来自全球顶尖高校和企业实验室的文章,为学术交流和传播做出了重要贡献。欢迎各位专家学者投稿或联系报道,投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

大语言模型的广泛应用带来了大规模推理的巨大挑战。传统注意力机制中的键值缓存(KV Cache)随着批处理大小和序列长度线性增长,成为限制大模型规模化应用和推理效率的瓶颈。

虽然MQA、GQA、MLA等改进方案已出现,但它们或难以在严格的显存限制下保持性能,或引入额外的复杂度,造成工程难题和兼容性问题。

阶跃星辰、清华大学等机构近期发表的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制——多矩阵分解注意力(MFA)及其变体MFA-Key-Reuse(MFA-KR)。该方法在显著降低推理成本的同时,提升了模型性能。

图片

论文链接:https://www.php.cn/link/aac8f7d518e4300ab8031d6709164f1d

实验表明,MFA和MFA-KR不仅性能超越MLA,而且在KV Cache使用量减少高达93.7%的情况下,性能与传统MHA相当。MFA易于实现和复现,对超参数不敏感,并兼容各种位置编码。

图片

图片

MFA方法及分析

研究团队通过对注意力机制的容量分析,确定了影响其容量的关键维度,并提出了一系列分析方法和设计原则。

图片

研究团队提出了广义多头注意力(GMHA)框架,统一理解不同MHA变体。他们从推理角度研究键值的计算和存储,从分解角度探讨模型容量特征,为理解不同策略的权衡提供了新视角。

研究团队将完全参数化双线性注意力(FPBA)作为理论性能上限,发现现有MHA及其变体都是FPBA的低秩分解版本。他们分析了MQA和MLA两种代表性改进方案:MQA采用激进的参数共享策略,降低内存使用但可能影响表达能力;MLA引入共享潜在空间,但表达能力受限于最小维度。

阶跃AI 阶跃AI

阶跃星辰旗下AI智能问答搜索助手

阶跃AI 291 查看详情 阶跃AI

基于以上分析,研究团队提出了MFA,旨在最大限度地节省资源并接近理论性能上限。MFA的三个关键创新:突破传统设计限制,增加注意力头的数量和维度;采用创新的低秩分解策略,提高参数效率;采用单键值头设计,降低内存使用。

图片

为了对比MFA和其他注意力机制,研究团队引入了两个关键指标:模型总有效秩TER和共享隐空间维度SLSD。TER越高,模型容量越高;SLSD代表所有注意力头共同使用的隐空间维度。KV Cache占用受制于FRH和SLSD中的较大值。

分析表明,MFA在参数预算下比MQA拥有更高的SLSD和TER;比MLA拥有更小的KV Cache尺寸和更高的TER,同时保持相当的SLSD;比MHA拥有更高的TER,解释了其性能优势。

实验结果

研究团队进行了大规模扩展性实验(1B到7B参数,10B到1T训练数据),MFA展现出与传统MHA相当的扩展能力。MFA和MFA-KR在内存节省方面优势显著,最大规模模型上分别实现87.5%和6.25%的内存节省。

图片

消融实验验证了MFA和MFA-KR设计的有效性,并在其他主流位置编码上也验证了其性能优势。

图片

图片

展望

MFA以简洁的设计解决了LLM高效推理的显存瓶颈问题,并能无缝集成到现有Transformer生态中。这项创新将加速大语言模型的应用。

以上就是阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/363315.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 03:47:54
下一篇 2025年11月6日 03:52:35

相关推荐

  • php怎么写直播源码_php写直播源码实现与推流设置【指南】

    首先检查服务器配置、编码格式与推流地址设置,再通过部署Nginx-rtmp、生成动态地址、配置OBS或FFmpeg推流、实现状态监控接口完成PHP直播系统搭建。 如果您尝试搭建一个基于PHP的直播系统,但无法正常获取视频流或推流失败,则可能是由于服务器配置、编码格式不匹配或推流地址设置错误导致。以下…

    2025年12月13日
    000
  • php源码怎么添加授权软件_php源码添加授权软件配置与法【指南】

    答案:PHP源码授权通过域名绑定、远程验证、加密保护和时间限制组合实现。1. 域名授权验证当前运行域名是否在许可列表;2. 远程授权向服务器发送域名、时间戳等信息校验合法性;3. 使用ionCube等工具加密代码防止篡改;4. 设置有效期与更新机制,确保授权可控。综合策略提升安全性,同时保障用户体验…

    2025年12月13日
    000
  • 怎么删除php的源码_删除php源码残留与清理步骤【教程】

    确认PHP源码路径如/var/www/html;2. 停止Apache或Nginx及PHP-FPM服务;3. 使用rm -rf删除项目目录;4. 登录数据库并删除关联库;5. 清理cron定时任务;6. 删除虚拟主机配置与日志残留,确保彻底清除。 如果您在服务器或本地环境中移除了PHP应用,但发现仍…

    2025年12月13日
    000
  • php PDO的预处理语句有哪些

    PHP PDO预处理语句通过prepare()和execute()方法实现,支持命名参数(:name)和位置占位符(?),结合bindParam()或bindValue()绑定变量,并指定PDO::PARAM_INT、PDO::PARAM_STR等类型以增强安全性,执行后使用fetch()、fetc…

    2025年12月13日
    000
  • php中md5怎么解密_用PHP逆向md5加密获取明文教程【技巧】

    MD5不可逆,但可通过彩虹表查询、本地脚本比对、在线API调用或暴力破解工具如John the Ripper和hashcat,尝试推断原始明文。 如果您尝试对 PHP 中通过 md5 函数生成的哈希值进行还原,以获取原始明文数据,需要明确的是:MD5 是一种单向散列算法,无法通过常规解密方式逆向计算…

    2025年12月13日
    000
  • php源码怎么学_php源码学习路径与核心要点解析【教程】

    掌握PHP源码需先搭建含调试模式的编译环境,再熟悉Zend/、ext/等核心目录结构,重点理解zval数据结构与引用计数机制,通过GDB跟踪zend_execute等执行流程,并动手开发自定义扩展验证内核交互。 如果您希望深入理解PHP的运行机制与底层实现,学习PHP源码是一个不可或缺的过程。直接阅…

    2025年12月13日
    000
  • php登陆密码加密怎么解密_用PHP逆向密码加密算法获取明文教程【技巧】

    答案:用户密码应使用不可逆哈希存储,无法解密;需通过password_verify验证、分析可逆加密逻辑、彩虹表破解或安全重置方案处理。 如果您在开发或维护PHP系统时,需要处理用户登录密码的加密与解密问题,必须明确一个核心原则:现代密码学设计中,用户密码通常采用不可逆哈希算法存储,无法通过常规方式…

    2025年12月13日
    000
  • php中get_object_vars()在数组的使用

    get_object_vars() 返回对象的可访问属性数组,用于将对象转为数组进行遍历、过滤或导出。在类外部仅返回 public 属性,内部可访问所有属性,支持与数组函数结合操作。 get_object_vars() 是 PHP 中用于获取对象的可访问属性的函数,它返回一个关联数组,包含对象中所有…

    2025年12月13日
    000
  • php文件怎么在手机上打开

    可用文本编辑器查看PHP代码,或通过Termux安装PHP运行,也可用在线平台如paiza.io执行,结合PHP内置服务器还可预览网页效果。 PHP文件是服务器端脚本文件,不能像普通文档一样直接在手机上“打开”并看到运行效果,但你可以通过一些方法查看代码或在手机上运行PHP程序。以下是几种实用方式:…

    2025年12月13日
    000
  • 如何使用php中codeIgniter框架?

    CodeIgniter 是轻量级 PHP 框架,适合中小型项目;支持 MVC 结构但不强制复杂约定,学习成本低;通过 Composer 安装,php spark serve 启动服务;配置在 app/Config/ 和 .env;路由、控制器、模型、视图分工明确,开箱即用。 CodeIgniter …

    2025年12月13日
    000
  • php源码文件怎么保存_php源码文件保存格式与备份法【教程】

    应使用UTF-8无BOM编码保存PHP文件,通过Git进行版本控制,结合本地压缩与云存储实现双重备份,并配置Shell脚本与cron定时自动备份。 如果您需要保存PHP源码文件以确保代码的完整性和可移植性,必须遵循正确的格式和备份策略。以下是具体的操作步骤: 一、选择正确的文件保存格式 保存PHP源…

    2025年12月13日
    000
  • 怎么运行php源码_php源码运行环境与执行方法教程【技巧】

    要运行PHP源码需先搭建环境并选择合适方式执行。1、使用XAMPP等集成环境部署至本地服务器,将文件放入htdocs目录后通过浏览器访问localhost路径;2、命令行运行适用于简单脚本,需配置PHP环境变量后在终端执行php 文件名.php;3、线上运行可将源码上传至支持PHP的主机空间,通过域…

    2025年12月13日
    000
  • php源码怎么汉化_php源码汉化文本与编码处理法

    答案:实现PHP源码汉化需统一文件编码为UTF-8无BOM,替换英文字符串为中文,设置header(‘Content-Type: text/html; charset=utf-8’),使用gettext扩展管理多语言,并在JSON和数据库操作中确保utf8mb4编码支持,防止…

    2025年12月13日
    000
  • 解决WordPress自定义分类归档页面内容显示问题

    本文旨在解决WordPress自定义分类归档页面内容无法正确显示的问题。核心在于理解并利用WordPress的模板层级结构,特别是针对自定义分类(Custom Taxonomy)的归档页面。我们将详细阐述如何通过正确命名模板文件和利用WordPress内置查询机制,确保分类筛选后的文章能够被准确呈现…

    2025年12月13日
    000
  • php源码怎么备份_php源码备份方法与恢复技巧

    使用FTP、SSH、定时任务、Git等方式可有效备份PHP源码,并通过解压或克隆实现快速恢复。 如果您需要对PHP源码进行备份以防止代码丢失或服务器故障,确保项目文件的安全性和可恢复性至关重要。以下是几种有效的PHP源码备份方法及相应的恢复操作步骤: 一、使用FTP工具进行手动备份 通过FTP客户端…

    2025年12月13日
    000
  • php源码代码怎么用_php源码代码调用与运行示例法【指南】

    可通过本地服务器如XAMPP运行PHP,将文件放入htdocs目录并访问localhost地址;2. 使用命令行执行PHP脚本需进入文件目录后运行php script.php;3. 将PHP嵌入HTML文件并通过Web服务器解析执行;4. 利用在线平台如paiza.io粘贴代码并点击运行测试;5. …

    2025年12月13日
    000
  • Laravel敏感数据可逆加密与解密教程

    在laravel中构建密码管理器等应用时,传统的`bcrypt`哈希函数是单向的,无法解密以恢复原始数据。本文将介绍如何利用laravel内置的`crypt`门面实现敏感数据的可逆加密和解密,确保数据在数据库中以加密形式存储,并在需要时安全地恢复原始字符串,从而满足密码管理器等应用对数据存取的需求。…

    2025年12月13日
    000
  • PHP条件语句中空字符串评估与PhpStorm警告解析

    本文深入探讨了PHP中条件语句处理空字符串时可能遇到的PhpStorm警告,尤其是在if/elseif链式判断中的逻辑冗余问题。通过分析一个具体的PHP函数示例,文章详细解释了为何IDE会发出“条件始终为真”的警告,并提供了优化条件逻辑的建议,同时澄清了PHP中empty()函数与空字符串布尔评估的…

    2025年12月13日
    000
  • 如何为您的网站集成专属站内搜索与智能建议功能

    本文详细介绍了如何利用%ignore_a_1%可编程搜索引擎(原google自定义搜索)为您的网站实现专属站内搜索功能,并提供智能搜索建议。通过逐步指导,您将学会如何创建、配置并集成搜索框及搜索结果到您的网页中,确保用户仅能在您的网站内容中进行搜索,并获得友好的交互体验。 在当今的网站设计中,提供一…

    2025年12月13日
    000
  • 领域驱动设计中值对象与实体构建的实践指南

    本文深入探讨了领域驱动设计(DDD)中值对象的应用策略,特别是在处理复杂数据结构和大型实体时的挑战。文章阐明了并非所有数据字段都需独立为值对象,强调了复合值对象的优势,并提供了判断标准以避免过度工程。同时,针对多表联接场景,提出了基于有界上下文和聚合根的解决方案,并建议利用工厂模式简化实体构建,最终…

    2025年12月13日
    000

发表回复

登录后才能评论
关注微信