Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

mamba 时代来了?

自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。

然而,transformer 架构实际上有两个显著缺点:

Transformer 的内存占用量随上下文长短而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得具有挑战性,从而限制了广泛的实验和部署。 Transformer 模型的内存占用量随上下文长度的变化而变化,这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行处理变得困难,从而限制了广泛的实验和部署。

Transformer 模型中的注意力机制会根据上下文长度的增加来调整速度,这种机制会随机扩展序列长度并降低计算量,因为每个 token 都依赖于它之前的整个序列,从而将上下文应用于高效生产产生的范围之外。

transformer并非生产式人工智能唯一的前进方向。最近,AI21 Labs推出并开源了一种名为“Jamba”的新方法,在多个基准上超越了transformer。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而,Mamba 方法很难提供与 transformer 模型相同的输出水平。 

Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,旨在将 SSM 和 transformer 的最佳属性结合在一起。

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 还可以作为 NVIDIA NIM 推理微服务从 NVIDIA API 目录进行访问,企业应用程序开发人员可以使用 NVIDIA AI Enterprise 软件平台进行部署。

‍总的来说,Jamba 模型具有以下特点:

第一个基于 Mamba 的生产级模型,采用新颖的 SSM-Transformer 混合架构;

与 Mixtral 8x7B 相比,长上下文上的吞吐量提高了 3 倍;

提供对 256K 上下文窗口的访问;

公开了模型权重;

同等参数规模中唯一能够在单个 GPU 上容纳高达 140K 上下文的模型。

uBrand Logo生成器 uBrand Logo生成器

uBrand Logo生成器是一款强大的AI智能LOGO设计工具。

uBrand Logo生成器 124 查看详情 uBrand Logo生成器

模型架构

如下图所示,Jamba 的架构采用块层(blocks-and-layers)方法,使 Jamba 能够集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器(MLP),从而形成 transformer 层。

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 利用 MoE 来增加模型参数的总数,同时简化推理中使用的活跃参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量,研究团队优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留出了足够的内存。

Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B,并且其混合架构使这些 12B 活跃参数比同等大小的纯 transformer 模型更有效。 

此前,没有人将 Mamba 扩展到 3B 参数之外。Jamba 是同类模型中第一个达到生产级规模的混合架构。

吞吐量和效率

初步评估实验表明,Jamba 在吞吐量和效率等关键衡量指标上表现出色。

在效率方面,Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍。Jamba 比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效。

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

在成本方面,Jamba 可以在单个 GPU 上容纳 140K 上下文。与当前类似大小的其他开源模型相比,Jamba 能提供更多的部署和实验机会。

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

需要注意的是,Jamba 目前不太可能取代当前基于 Transformer 的大型语言模型 (LLM),但它可能会成为某些领域的补充。

参考链接:

https://www.ai21.com/blog/announcing-jamba

https://venturebeat.com/ai/ai21-labs-juices-up-gen-ai-transformers-with-jamba/

以上就是Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/897233.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月28日 18:25:27
下一篇 2025年11月28日 18:25:51

相关推荐

  • JavaScript动态生成日历式水平日期布局的优化实践

    本教程将指导如何使用javascript高效、正确地动态生成html表格中的日历式水平日期布局。重点解决直接操作`innerhtml`时遇到的标签闭合问题,通过数组构建html字符串来避免浏览器解析错误,并利用事件委托机制优化动态生成元素的事件处理,确保生成结构清晰、功能完善的日期展示。 在前端开发…

    2025年12月6日 web前端
    000
  • Java中char与String的字节表示深度解析

    本文深入探讨java中`char`类型和`string`对象在内存中的字节表示及其与字符编码的关系。`char`固定占用2字节并采用utf-16编码,而`string.getbytes()`方法返回的字节数组长度则取决于所使用的字符集,这正是导致常见混淆的关键。文章将通过示例代码和详细解释,阐明不同…

    2025年12月6日 java
    000
  • vivo X100拍照模糊怎么处理 vivo X100相机优化技巧

    先清洁镜头并检查设置,再清除相机缓存与数据,更新系统并优化性能,最后使用专业模式提升画质,多数拍照模糊问题可解决。 vivo X100拍照模糊,多数情况能通过简单操作解决。先别急着送修,从清洁、设置到系统维护一步步排查,通常都能恢复清晰画质。 检查镜头与基础设置 模糊问题往往出在最容易被忽略的地方。…

    2025年12月6日 手机教程
    000
  • 如何在mysql中优化GROUP BY分组查询

    答案:优化GROUP BY需创建合适索引(如WHERE与GROUP BY字段的复合索引)、使用ORDER BY NULL避免隐式排序、通过WHERE提前过滤数据、避免在分组字段使用函数、利用覆盖索引减少回表、控制分组结果大小并监控临时表使用,结合EXPLAIN分析执行计划持续优化。 在MySQL中优…

    2025年12月6日 数据库
    000
  • 如何在mysql中设置最大并发连接

    答案是通过调整max_connections参数设置MySQL最大并发连接数。默认151,可临时用SET GLOBAL命令修改,或在配置文件[mysqld]段落添加max_connections持久生效,修改后需重启服务,并注意内存消耗与系统连接限制。 在 MySQL 中设置最大并发连接数,主要是通…

    2025年12月6日 数据库
    000
  • qq浏览器纯净版和普通版有什么区别_qq浏览器不同版本功能对比

    QQ浏览器纯净版与普通版的核心区别在于广告、首页布局和功能精简。1、纯净版移除大部分广告,提供更干净的浏览体验;2、默认新标签页为简洁模式,不推送资讯内容;3、精简预装插件,降低内存占用;4、两版本均支持完整的数据同步功能,账号服务无差异。 如果您在选择QQ浏览器时对纯净版与普通版的功能差异感到困惑…

    2025年12月6日 电脑教程
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • ThinkPHP服务容器(Container)与依赖注入

    thinkphp的服务容器和依赖注入通过集中管理对象创建和降低对象耦合度,提升了代码的可维护性和灵活性。1.服务容器负责对象的创建和生命周期管理。2.依赖注入通过传递依赖对象,降低了代码耦合度。3.使用时需注意性能、复杂性和学习曲线。4.优化方法包括延迟加载、单例模式和接口实现分离。 在开发过程中,…

    2025年12月5日
    000
  • Word提示内存或磁盘空间不足怎么解决 快速解决方法在这

    在使用 word 编辑或保存文件时,有时会弹出令人困扰的提示:“内存或磁盘空间不足,无法完成操作”。特别是当你正在处理内容较多的文档、插入大量图片或使用复杂格式时,这类问题更容易出现。那么,这个错误背后的真正原因是什么?又该如何有效应对?本文将为你深入剖析,并提供切实可行的解决方法。 一、理解错误提…

    2025年12月5日 电脑教程
    000
  • PHP教程:在条件判断中安全地输出文件内容

    本教程详细介绍了如何在php中根据特定条件(例如白名单验证)安全地读取并输出文件内容。通过file_get_contents()函数结合__dir__魔术常量,您可以高效地将外部文件的文本或脚本内容作为php响应的一部分,从而实现动态内容交付或增强应用程序的安全性。 PHP作为一种强大的服务器端脚本…

    2025年12月5日
    000
  • Java中如何生成XML 详解DOM方式创建XML文档

    使用dom方式创建xml文档的步骤如下:1. 创建documentbuilderfactory对象;2. 创建documentbuilder对象;3. 创建document对象;4. 创建根元素并添加到document对象;5. 创建子元素和文本节点;6. 将元素逐级添加到dom树;7. 使用tra…

    2025年12月5日 java
    000
  • PHP与SQLite数据库交互时如何优化查询的处理方法?

    合理使用索引能显著提升查询速度,但避免频繁更新字段加索引;2. 使用预处理语句减少重复解析开销,提高安全性与效率;3. 控制查询范围避免全表扫描,指定字段并用limit和offset分页;4. 合理使用事务合并写操作,提高批量数据处理效率。在sqlite中优化php查询需从索引设计、预处理、查询控制…

    2025年12月5日 后端开发
    000
  • Java中XML怎么处理 详解Java DOM和SAX解析XML的方法

    java中处理xml主要有dom和sax两种方法。1.dom一次性加载整个文档到内存,形成树状结构,便于访问和修改,但内存消耗大,适合小文件;2.sax是事件驱动,逐行读取,内存占用小,适合大文件,但操作较复杂。此外还有jaxb、stax和xpath等方法,选择取决于文件大小、操作需求、性能及开发效…

    2025年12月5日 java
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 为什么谷歌浏览器总是提示“网页无响应”?

    当您在浏览网页时,谷歌浏览器弹出“网页无响应”的提示,意味着当前的标签页已经停止响应,无法进行任何操作,这无疑会中断您的工作流程。这个问题通常不是由单一原因引起的,它可能与特定网页的脚本、过多的后台活动、扩展程序冲突或浏览器缓存有关。本文将分析导致此问题的几个主要因素,并提供相应的排查和解决方法,帮…

    2025年12月5日
    000
  • 如何在Laravel中优化数据库查询

    优化laravel数据库查询的核心在于减少查询次数、优化语句、使用缓存和合理索引。1. 使用eager loading(如with()方法)避免n+1问题,减少查询次数;2. 选择特定列而非select *,降低i/o负担;3. 必要时使用原生查询并绑定参数防止注入;4. 利用缓存(如cache::…

    2025年12月5日
    000
  • 如何自动加载类?PSR-4规范详细教程

    psr-4规范通过命名空间与文件路径的映射规则实现了php类的自动加载,终结了传统require带来的维护难题。1. 它强制使用命名空间解决类名冲突;2. 通过命名空间前缀与基目录的映射实现类文件的自动定位;3. 支持按需加载提升性能;4. 成为php社区标准促进生态统一。手动实现的关键包括注册sp…

    2025年12月5日 后端开发
    000
  • Java中如何转换图片格式 解析不同格式的转换

    java中转换图片格式的核心方法是使用javax.imageio或第三方库如twelvemonkeys imageio进行读取与保存。1. 使用javax.imageio可实现基本的格式转换,例如将png转为jpg;2. twelvemonkeys imageio支持更多格式如webp,并提升性能;…

    2025年12月5日 java
    000
  • js如何检测代码性能 代码性能监控的5种实现方式

    js代码性能检测是找出代码瓶颈并优化以提升网页或应用运行速度的过程。主要方法包括:1. 使用浏览器开发者工具的performance面板分析执行时间线,识别高耗时函数和频繁dom操作;2. 使用console.time()和console.timeend()快速定位特定代码段的执行时间;3. 利用c…

    2025年12月5日 web前端
    000
  • Excel如何导出?PhpSpreadsheet教程

    phpspreadsheet处理大量数据导出时的优化策略包括:1. 调整php内存限制,如设置memory_limit为512m或更高;2. 使用xlsx写入器的流式写入模式,通过setusediskcaching(true)结合settempdir()减少内存占用;3. 分批处理数据,从数据库分批…

    2025年12月5日 后端开发
    100

发表回复

登录后才能评论
关注微信