北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

北大林宙辰团队全新混合序列建模架构mixcon:性能远超mamba

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

序列猴子开放平台 序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0 查看详情 序列猴子开放平台

在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。
因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
论文标题:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
论文地址:https://zhouchenlin.github.io/Publications/2024-ECAI-MixCon.pdf
一、现有序列建模模型的困境
线性注意力 Transformer
线性注意力 Transformer 旨在通过近似注意力机制来提高原始 Transformer 模型的效率,将计算复杂度从北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba降低到北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,但在处理长序列时可能会面临性能下降和计算开销增加的问题。
例如,早期利用局部敏感哈希方案虽降低复杂度,但引入大常数因子;近期通过改变计算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。
线性 RNN 模型
线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。
然而,它们可能缺乏复杂序列建模任务所需的适应性和动态特性,并且像传统序列模型一样,缺少反馈机制和自适应控制。
MoE 模型
MoE 模型通过结合专家模块,能有效处理长序列并保持计算效率,根据输入数据自适应选择专家模块。
但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。
二、MixCon 的核心架构与技术
Conba 模型架构
1. 状态空间方程
Conba 将序列建模任务表示为状态空间系统,状态空间定义为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba分别为时间步北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的状态、输入和输出,北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是非线性函数,可由神经网络近似。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是可学习参数矩阵。北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是可学习参数矩阵。
为处理长序列,Conba 采用选择性状态空间机制北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,以及引入延迟状态北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和动态状态缩放机制北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
最后状态空间系统表示为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba来捕捉长程依赖和适应序列动态变化。
2. 自适应控制机制
设计目标是最小化实际输出北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和期望输出北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba之间的跟踪误差北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
控制增益矩阵北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba通过北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba更新,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是跟踪误差向量北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的 2 范数,北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是学习率。
3. 实施细节
神经网络近似:
利用 MLP 近似状态转移函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的非线性部分和观察函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,通过端到端训练确定最佳参数。
选择性状态空间函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba用 SwiGLU(基于 Swish 和 GLU 的混合激活函数)近似,其公式为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
进一步扩展和增强稳健性:引入过程噪声北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和观察噪声北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba, 北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,增强模型对扰动的适应性。
4. 模型架构图如下所示:
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
MixCon 模型架构
MixCon 是结合注意力机制的 Transformer 层、Conba 层和 MoE 组件的创新混合解码器架构。
在内存使用方面,通过平衡注意力和 Conba 层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。
基本配置单位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba 模块,后接 MLP 或 MoE 层。MixCon 中的 MLP 层被 MoE 层替换,以增加模型容量同时保持较低计算负载。
对于 Conba 层实施,采用 RMSNorm 等技术,模型词汇量为 256K,使用 BPE 进行训练,每个数字为单独令牌。
模型架构图如下所示:
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
三、MixCon 的实验与评估
实施细节
选择特定配置适应单块 80GB A800 NVIDIA GPU 的计算能力,实现质量和吞吐量的优化。
序列由 4 个 MixCon 块组成,每个 MixCon 块含 8 层 L = 8,注意力层和 Conba 层比例为 2:6 (a:c = 2:6),每隔一层 (e = 2) 用 MoE 替换 MLP 模块,模型有 16 个专家 (n = 16),每个令牌使用 2 个顶级专家 (K = 2)。
上下文长度分析
MixCon 在单块 80GB A800 GPU 上的最大上下文长度是 Jamba 的两倍、Mixtral 的四倍、Llama – 2 – 70B 的十四倍(如图 3 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
吞吐量分析
1. 配置一:考虑不同批大小,在单块 A800 80GB GPU(int8 量化)、8K 上下文长度下生成 512 个输出令牌,MixCon 吞吐量是 Mixtral 的三倍、Jamba 的两倍(如图 4 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
2. 配置二:单批次(批大小 = 1)、四块 A800 GPUs(无量化)、不同上下文长度下生成 512 个输出令牌,处理 128K 令牌时,MixCon 吞吐量是 Jamba 的 1.5 倍、Mixtral 的 4.5 倍(如图 5 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
数据集评估
本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC – E、ARC – Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。
MixCon 性能与类似或更大规模的先进公开模型相当或更优,尽管总参数比 Llama – 2 少,但作为稀疏模型,其活跃参数仅 5B,处理长序列时 KV 缓存仅需 2GB,而 Mixtral 需 32GB(如表 2 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
消融实验
展示注意力和 Conba 层结合的优势及最佳比例和交织技术。纯 Conba 模型在上下文学习有困难,Attention – Conba 混合模型有类似纯 Transformer 模型的上下文学习能力。
以 HellaSwag(10 – shot)、WinoGrande(5 – shot)、Natural Questions(NQ,5 – shot)为指标,MixCon 表现稳健(如表 3 所示),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
长上下文评估
利用问答基准测试评估 MixCon 处理长上下文能力,使用 L – Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。
在 NarrativeQA、LongFQA、Natural Questions(NQ)、CUAD 等数据集上评估,MixCon 在多数数据集上优于 Mixtral 和 Jamba,平均性能优越,且在长上下文任务中具有更好的吞吐量(如表 4 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
结合注意力和 Conba 的优势及混合专家的影响
1. 注意力和 Conba 比例研究
用 13 亿参数模型在 2500 亿令牌上训练,MixCon 性能优于纯注意力或纯 Mamba,注意力和 Conba 层比例为 2:6 或 1:7 时性能差异小(如表 5 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
2. 混合专家的影响
当在 MixCon 架构的大规模情境(5B 参数,在 50B 令牌上训练)中应用 MoE 技术时,性能有显著提升(如表 6 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
四、MixCon 的优势与展望
MixCon 作为创新的混合序列建模架构,通过整合多种技术,在处理复杂动态序列时具有高效的计算效率,在各项任务中展现出显著优势,能高效处理长序列、内存使用低且吞吐量高,具有高可扩展性和实用性。然而,它仍有改进空间,如进一步优化状态空间表示、长序列的自适应控制、特定领域微调以及训练算法等。
总体而言,MixCon 为序列建模提供了新的解决方案,在复杂序列处理方面表现出色,为 NLP 及其他领域的应用开辟了新道路。未来,我们期待它在更多领域发挥更大的作用,为技术发展带来更多的突破和创新。

以上就是北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/416314.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
java数组中怎么删除元素
上一篇 2025年11月7日 01:28:01
展望未来,手机行业的发展有何趋势?
下一篇 2025年11月7日 01:28:10

相关推荐

  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    000
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • NextAuth getToken 在服务端返回 null 的问题排查与解决

    问题描述 在使用 Next.js 和 NextAuth 构建应用程序时,有时需要在服务端获取用户的身份验证信息。getToken 函数是 NextAuth 提供的一个便捷方法,用于从请求中提取 JWT (JSON Web Token)。然而,在某些情况下,尤其是在使用 getServerSidePr…

    2026年5月10日
    000
  • HTML文档如何工作?如何编辑HTML格式文件?

    HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?

    浏览器解析和渲染html的过程包括:1. 解析html构建dom树;2. 结合css构建渲染树;3. 布局计算元素位置;4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器,其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

    2026年5月10日 用户投稿
    000
  • GolangWeb项目异常捕获与日志记录

    答案:通过中间件使用defer和recover捕获panic,结合zap等结构化日志库记录请求链路信息,为每个请求生成trace ID,实现异常捕获与可追踪日志,提升系统稳定性与可观测性。 在Go语言Web项目中,异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

    2026年5月10日
    000
  • Python官网用户调查的参与方式_Python官网反馈提交详细教程

    答案是通过访问Python官网新闻页面、邮件邀请链接或GitHub仓库提交反馈。具体为:访问官网查找用户调查公告,或点击邮件中的专属链接参与,在GitHub的cpython仓库提交技术建议,并注意如实填写问卷与保护隐私。 如果您希望参与Python官网的用户调查并提交反馈,可以通过官方指定的渠道完成…

    2026年5月10日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误解析

    本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称(dsn)的规范格式,特别是主机地址部分的配置,以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

    2026年5月10日
    000
  • Tensorflow 音乐预测

    在本文中,我展示了如何使用张量流来预测音乐风格。在我的示例中,我比较了电子音乐和古典音乐。 你可以在我的github上找到代码:https://github.com/victordalet/sound_to_partition i – 数据集 第一步,您需要创建一个数据集文件夹,并在里面…

    2026年5月10日
    000
  • 哪里可以买比特币BTC?怎么买?一文了解全过程

    哪里可以买比特币BTC?怎么买?一文了解全过程哪里可以买比特币BTC?怎么买?一文了解全过程哪里可以买比特币BTC?怎么买?一文了解全过程哪里可以买比特币BTC?怎么买?一文了解全过程

    对于新手投资者来说,购买比特币(BTC)需要了解完整的操作流程,包括选择交易平台、注册账户、资金充值以及交易执行。本文将详细解析全过程,帮助顺利进入加密市场。 一、选择可靠的交易平台 投资者应选择知名、安全、交易深度充足的交易所,以确保资金安全和交易顺畅。为了方便快速参与BTC交易并实时监控市场动态…

    2026年5月10日 用户投稿
    000
  • 学习了Python的Flask后,Go语言的Web框架该选Gin还是Beego?

    学习编程时,选择合适的框架至关重要。许多开发者在掌握Python Flask后,转向Go语言Web开发时,常常在Gin和Beego之间难以抉择。本文将深入分析,助您做出明智选择。 虽然网上搜索结果多建议使用Go原生标准库http,但实际上所有框架都是对http的封装。虽然使用http开发灵活,但工作…

    2026年5月10日
    000
  • Binance官方网站 币安Binance最新App下载 v3.8.0官方下载通道

    币安(binance)作为全球交易量领先的数字资产服务平台,其官方应用的安全性和功能的及时更新至关重要。本篇指南将为您详细解析如何通过币安官方网站,安全地获取并安装其最新版本的官方app,确保您使用的是官方正版通道,从而保障您的资产安全。 官网访问与账户准备 币安(Binance)官网入口: 币安(…

    2026年5月10日
    100
  • Binance交易所2026版安卓下载 币安平台正版App v3.8.8

    币安(binance)是全球领先的数字资产交易平台之一,为用户提供广泛的数字货币交易服务、金融衍生品以及资产管理等功能。币安app以其安全稳定、操作便捷和功能全面的特点,受到了全球数百万用户的信赖。本文将为您提供币安平台正版app v3.8.8的安卓版本下载及安装教程,并详细介绍后续的注册、认证与交…

    2026年5月10日
    000
  • JavaScript动态下拉菜单:实现日期选项与价格计算关联

    在现代web应用中,动态生成表单元素并使其具备交互逻辑是常见的需求。特别是在需要根据用户选择调整价格或服务参数的场景下,下拉菜单()常被用来展示一系列选项。本教程将指导您如何利用javascript动态生成一个包含日期选项的下拉菜单,并为每个选项关联一个具体的数值(如剩余天数),进而实现一个基于用户…

    2026年5月10日
    000
  • 如何在不暴露密钥的情况下,在客户端创建 Stripe Payment Link

    本文介绍了在纯静态网站环境下,如何利用 Stripe Payment Link 实现商品售卖,并着重讨论了在不暴露 Stripe 密钥的前提下,客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险,并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

    2026年5月10日
    000
  • React Redux 中 useSelector 的自动订阅与取消订阅机制

    React Redux 中 useSelector 的自动订阅与取消订阅机制React Redux 中 useSelector 的自动订阅与取消订阅机制React Redux 中 useSelector 的自动订阅与取消订阅机制React Redux 中 useSelector 的自动订阅与取消订阅机制

    本文深入探讨 react redux 中 `useselector` hook 的核心机制。它详细解释了 `useselector` 如何在组件挂载时自动订阅 redux store 的状态更新,并在组件卸载时智能地取消订阅。这确保了应用程序的性能和内存效率,避免了对已卸载组件进行不必要的更新,从而…

    2026年5月10日 用户投稿
    100
  • 解决Go语言中GOPATH未设置错误及工作区配置指南

    本文旨在解决go语言开发中常见的“gopath not set”错误,并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展,以及一些高级配置技巧,旨在帮助开发者建立一个高效、规范的go开发环境,确保包的下载、编译和运行顺利进行。 Go语言在…

    2026年5月10日
    000
  • 掌握 ESeatures:JavaScript 中的 let、const 和类

    深入理解ES6特性:let、const与类 ECMAScript 2015 (ES6) 引入了一系列强大的特性,彻底革新了JavaScript开发。其中,let、const和class关键字对于编写现代化、简洁高效的JavaScript代码至关重要。 1. let关键字 let用于声明具有块级作用域…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信