RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多

在大模型内卷的同时,transformer的地位也接连受到挑战。

近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出,在英语测试中与顶尖模型不相上下。

同时,Eagle 7B用的是RNN架构,相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布,我们先提供RWKV的论文,这是第一个将参数扩展到数百亿的非Transformer架构。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

论文地址:https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2023录用了这篇工作,作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图,表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的,1.1T(万亿)个Token的训练数据,在下图的多语言基准测试中,Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa,涵盖了23种语言,以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一,尽管有一项没打过Mistral-7B,屈居第二,但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中,Eagle 7B的水平接近Falcon(1.5T)、LLaMA2(2T)、Mistral(>2T),与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

并且,在两种测试中,新的v5架构相比于之前的v4,有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管,以Apache 2.0许可证授权,可以不受限制地用于个人或商业用途。

多语言支持

前面说了,Eagle 7B的训练数据来自100多种语言,而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

虽然取得了第一名的成绩,但总的来说,Eagle 7B是吃亏的,毕竟,基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜,如果集中在英语,可能会获得比现在更好的成绩。

——那么,RWKV为什么要这么做呢?官方对此表示:

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中,最常见的是:

多语言方法损害了模型的英语评估分数,并减缓了线性Transformer的发展;

让多语言模型与纯英语模型,比较多语言性能是不公平的

云雀语言模型 云雀语言模型

云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效的完成互动对话

云雀语言模型 54 查看详情 云雀语言模型

官方表示,「在大多数情况下,我们同意这些意见,」

「但我们没有计划改变这一点,因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

2023年,世界上只有17%的人口会说英语(大约13亿人),但是,通过支持世界上排名前25位的语言,模型可以覆盖大约40亿人,即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助,比如让模型可以在低端硬件上以低廉的价格运行,比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集,以支持更广泛的语言,并慢慢将覆盖范围扩大到世界上100%的地区,——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中,有一个值得注意的现象:

随着训练数据规模不断增加,模型的性能逐渐进步,当训练数据达到300B左右时,模型显示出与pythia-6.9b 相似的性能,而后者的训练数据量为300B。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同,——也就是说,在训练数据规模相同的情况下,像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问,如果确实如此,那么是不是相比于确切的架构,数据反而对模型的性能提升更加重要?

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

我们知道,Transformer类的模型,计算和存储代价是平方级别的,而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构,以提高可访问性,降低每个人的人工智能成本,并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN,同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入,RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题,研究人员提出了多种架构:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成,每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素,右边为RWKV残差块,以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值(如下图中的对角线所示),可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量,以补偿潜在的退化。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化(矩阵乘法)。

在循环网络中,通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显,它要求在输入下一步之前计算每个令牌,从而使RWKV能够利用其类似RNN的结构,称为时间顺序模式。

在这种情况下,RWKV可以方便地递归表述,以便在推理过程中进行解码,它利用了每个输出令牌仅依赖于最新状态的优势,状态的大小是恒定的,而与序列长度无关。

然后充当RNN解码器,相对于序列长度产生恒定的速度和内存占用,从而能够更有效地处理较长的序列。

相比之下,自注意力的KV缓存相对于序列长度不断增长,从而导致效率下降,并随着序列的延长而增加内存占用和时间。

参考资料:

https://www.php.cn/link/fda2217a3921c464be73975603df7510

以上就是RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/622003.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 07:01:15
下一篇 2025年11月11日 07:02:20

相关推荐

  • JavaScript动态生成日历式水平日期布局的优化实践

    本教程将指导如何使用javascript高效、正确地动态生成html表格中的日历式水平日期布局。重点解决直接操作`innerhtml`时遇到的标签闭合问题,通过数组构建html字符串来避免浏览器解析错误,并利用事件委托机制优化动态生成元素的事件处理,确保生成结构清晰、功能完善的日期展示。 在前端开发…

    2025年12月6日 web前端
    000
  • Java中char与String的字节表示深度解析

    本文深入探讨java中`char`类型和`string`对象在内存中的字节表示及其与字符编码的关系。`char`固定占用2字节并采用utf-16编码,而`string.getbytes()`方法返回的字节数组长度则取决于所使用的字符集,这正是导致常见混淆的关键。文章将通过示例代码和详细解释,阐明不同…

    2025年12月6日 java
    000
  • vivo X100拍照模糊怎么处理 vivo X100相机优化技巧

    先清洁镜头并检查设置,再清除相机缓存与数据,更新系统并优化性能,最后使用专业模式提升画质,多数拍照模糊问题可解决。 vivo X100拍照模糊,多数情况能通过简单操作解决。先别急着送修,从清洁、设置到系统维护一步步排查,通常都能恢复清晰画质。 检查镜头与基础设置 模糊问题往往出在最容易被忽略的地方。…

    2025年12月6日 手机教程
    000
  • 如何在mysql中优化GROUP BY分组查询

    答案:优化GROUP BY需创建合适索引(如WHERE与GROUP BY字段的复合索引)、使用ORDER BY NULL避免隐式排序、通过WHERE提前过滤数据、避免在分组字段使用函数、利用覆盖索引减少回表、控制分组结果大小并监控临时表使用,结合EXPLAIN分析执行计划持续优化。 在MySQL中优…

    2025年12月6日 数据库
    000
  • 如何在mysql中设置最大并发连接

    答案是通过调整max_connections参数设置MySQL最大并发连接数。默认151,可临时用SET GLOBAL命令修改,或在配置文件[mysqld]段落添加max_connections持久生效,修改后需重启服务,并注意内存消耗与系统连接限制。 在 MySQL 中设置最大并发连接数,主要是通…

    2025年12月6日 数据库
    000
  • qq浏览器纯净版和普通版有什么区别_qq浏览器不同版本功能对比

    QQ浏览器纯净版与普通版的核心区别在于广告、首页布局和功能精简。1、纯净版移除大部分广告,提供更干净的浏览体验;2、默认新标签页为简洁模式,不推送资讯内容;3、精简预装插件,降低内存占用;4、两版本均支持完整的数据同步功能,账号服务无差异。 如果您在选择QQ浏览器时对纯净版与普通版的功能差异感到困惑…

    2025年12月6日 电脑教程
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • ThinkPHP服务容器(Container)与依赖注入

    thinkphp的服务容器和依赖注入通过集中管理对象创建和降低对象耦合度,提升了代码的可维护性和灵活性。1.服务容器负责对象的创建和生命周期管理。2.依赖注入通过传递依赖对象,降低了代码耦合度。3.使用时需注意性能、复杂性和学习曲线。4.优化方法包括延迟加载、单例模式和接口实现分离。 在开发过程中,…

    2025年12月5日
    000
  • Word提示内存或磁盘空间不足怎么解决 快速解决方法在这

    在使用 word 编辑或保存文件时,有时会弹出令人困扰的提示:“内存或磁盘空间不足,无法完成操作”。特别是当你正在处理内容较多的文档、插入大量图片或使用复杂格式时,这类问题更容易出现。那么,这个错误背后的真正原因是什么?又该如何有效应对?本文将为你深入剖析,并提供切实可行的解决方法。 一、理解错误提…

    2025年12月5日 电脑教程
    000
  • PHP教程:在条件判断中安全地输出文件内容

    本教程详细介绍了如何在php中根据特定条件(例如白名单验证)安全地读取并输出文件内容。通过file_get_contents()函数结合__dir__魔术常量,您可以高效地将外部文件的文本或脚本内容作为php响应的一部分,从而实现动态内容交付或增强应用程序的安全性。 PHP作为一种强大的服务器端脚本…

    2025年12月5日
    000
  • Java中如何生成XML 详解DOM方式创建XML文档

    使用dom方式创建xml文档的步骤如下:1. 创建documentbuilderfactory对象;2. 创建documentbuilder对象;3. 创建document对象;4. 创建根元素并添加到document对象;5. 创建子元素和文本节点;6. 将元素逐级添加到dom树;7. 使用tra…

    2025年12月5日 java
    000
  • PHP与SQLite数据库交互时如何优化查询的处理方法?

    合理使用索引能显著提升查询速度,但避免频繁更新字段加索引;2. 使用预处理语句减少重复解析开销,提高安全性与效率;3. 控制查询范围避免全表扫描,指定字段并用limit和offset分页;4. 合理使用事务合并写操作,提高批量数据处理效率。在sqlite中优化php查询需从索引设计、预处理、查询控制…

    2025年12月5日 后端开发
    000
  • Java中XML怎么处理 详解Java DOM和SAX解析XML的方法

    java中处理xml主要有dom和sax两种方法。1.dom一次性加载整个文档到内存,形成树状结构,便于访问和修改,但内存消耗大,适合小文件;2.sax是事件驱动,逐行读取,内存占用小,适合大文件,但操作较复杂。此外还有jaxb、stax和xpath等方法,选择取决于文件大小、操作需求、性能及开发效…

    2025年12月5日 java
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 为什么谷歌浏览器总是提示“网页无响应”?

    当您在浏览网页时,谷歌浏览器弹出“网页无响应”的提示,意味着当前的标签页已经停止响应,无法进行任何操作,这无疑会中断您的工作流程。这个问题通常不是由单一原因引起的,它可能与特定网页的脚本、过多的后台活动、扩展程序冲突或浏览器缓存有关。本文将分析导致此问题的几个主要因素,并提供相应的排查和解决方法,帮…

    2025年12月5日
    000
  • 如何在Laravel中优化数据库查询

    优化laravel数据库查询的核心在于减少查询次数、优化语句、使用缓存和合理索引。1. 使用eager loading(如with()方法)避免n+1问题,减少查询次数;2. 选择特定列而非select *,降低i/o负担;3. 必要时使用原生查询并绑定参数防止注入;4. 利用缓存(如cache::…

    2025年12月5日
    000
  • 如何自动加载类?PSR-4规范详细教程

    psr-4规范通过命名空间与文件路径的映射规则实现了php类的自动加载,终结了传统require带来的维护难题。1. 它强制使用命名空间解决类名冲突;2. 通过命名空间前缀与基目录的映射实现类文件的自动定位;3. 支持按需加载提升性能;4. 成为php社区标准促进生态统一。手动实现的关键包括注册sp…

    2025年12月5日 后端开发
    000
  • Java中如何转换图片格式 解析不同格式的转换

    java中转换图片格式的核心方法是使用javax.imageio或第三方库如twelvemonkeys imageio进行读取与保存。1. 使用javax.imageio可实现基本的格式转换,例如将png转为jpg;2. twelvemonkeys imageio支持更多格式如webp,并提升性能;…

    2025年12月5日 java
    000
  • js如何检测代码性能 代码性能监控的5种实现方式

    js代码性能检测是找出代码瓶颈并优化以提升网页或应用运行速度的过程。主要方法包括:1. 使用浏览器开发者工具的performance面板分析执行时间线,识别高耗时函数和频繁dom操作;2. 使用console.time()和console.timeend()快速定位特定代码段的执行时间;3. 利用c…

    2025年12月5日 web前端
    000

发表回复

登录后才能评论
关注微信