魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

不走transformer寻常路,魔改rnn的国产新架构rwkv,有了新进展:

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。

这两种序列模型以RWKV-4架构为基础,然后作了改进。

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。

来看看新模型在各大权威评测榜单上的成绩——

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。

Medeo Medeo

AI视频生成工具

Medeo 191 查看详情 Medeo

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。

(所有模型均基于上下文长度4096进行预训练)。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型
魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

阿拉伯语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

日语-英语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。

目前,彭博在Github有2.1k的followers。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。

接下来,RWKV的重点工作将放在以下几个方向:

扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:

https://arxiv.org/pdf/2404.05892.pdf

以上就是魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/846790.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月27日 15:29:57
下一篇 2025年11月27日 15:38:46

相关推荐

  • C++ 函数性能优化与持续集成和持续交付的协同作用

    c++++ 函数性能优化与 ci/cd 协同作用概述:将函数性能优化集成到 ci/cd 管道,通过单元测试、基准测试和代码审查监测和改进性能。常见的优化实践包括算法和数据结构优化、内联函数、避免复制、内存访问优化和并发优化。实战案例:采用备忘录技术优化斐波那契函数,减少计算复杂度,并通过 ci/cd…

    2025年12月18日
    000
  • c语言高精度除法运算源代码

    在 C 语言中,高精度除法运算可以通过使用额外的辅助函数和数据结构来实现。首先,需要定义一个高精度整数结构,其中包含数字数组和长度信息。随后,可以使用数组来存储数字,并通过初始化、创建和除法运算函数进行处理。除法运算需要归一化、更新商和减去乘积。最后,去除余数中的前导零并释放内存,即可得到商。 C …

    2025年12月18日
    000
  • c语言高精度除法运算

    C 语言高精度除法运用两种方法:长除法算法(最简单)和巴特沃斯除法算法(更高效)。长除法算法按位分解被除数,逐位进行除法运算,实现步骤包括:归一化被除数、归一化除数、估计商、调整商、计算余数、归一化商并输出结果。 C 语言高精度除法运算 在计算机中,高精度除法运算是指对超大整数执行除法操作。C 语言…

    2025年12月18日
    000
  • c语言高精度除法代码

    C 语言实现高精度除法采用算法分步实现:初始化、对齐数字、不断减去、更新商、处理尾数。具体步骤包括:初始化除数、被除数、商和余数。将被除数和除数转换为相同长度,前面填充 0。从被除数中不断减去除数,直到余数小于除数。在每次减法后,将商递增 1。如果减法后还有尾数,则继续按照前面步骤迭代。 C 语言高…

    2025年12月18日
    000
  • c语言高精度除法视频

    C语言高精度除法算法通过将被除数和除数表示为数组,逐位比较进行除法。步骤包括:1. 初始化除数、被除数和余数;2. 循环除法,确定倍数并调整余数;3. 处理小数;4. 返回商和余数。 C 语言高精度除法 问题:如何使用 C 语言执行高精度除法? 详细回答: 高精度除法是一种计算任意长度整数除法的算法…

    2025年12月18日
    000
  • c语言高精度乘除法

    C 语言的高精度乘除法算法允许处理超出计算机数据范围的数字。乘法将数字表示为数组,逐位计算并考虑进位和溢出。除法使用长除法,逐位除以除数,得到商和余数。数据类型包括数组存储数组、长整数存储中间结果和变量长度数组动态调整大小。 C 语言高精度乘除法 在计算机科学中,高精度乘除法算法用于处理超出计算机原…

    2025年12月18日
    000
  • C语言中数组高精度除法

    C语言中数组高精度除法可以采用长除法算法实现:对齐被除数和除数数组,使得除数最高位与被除数最高位对齐。从被除数最高位逐位进行除法运算,将被除数减去除数乘以商得到新被除数。根据余数将商加 1 或 0。重复步骤 2 和 3,直到被除数为 0 或余数小于除数。 C语言中数组高精度除法 解决方法: C语言中…

    2025年12月18日
    000
  • 用c语言编写高精度除法

    C语言高精度除法算法步骤如下:初始化变量。归一化除数和被除数。从最高位开始比较被除数和除数,计算商和余数。将余数左移一位,并将下一个被除数字添加到余数中。重复步骤3和4,直到除数长度为0或余数为0。结果:quotient为商,remainder为余数。 C语言高精度除法算法 高精度除法算法用于计算大…

    2025年12月18日
    000
  • 高精度除法的函数c

    高精度除法函数可用于计算非常大的整数的商。算法先将被除数和除数分解为数字,然后逐步减去除数直到余数小于除数。重复该过程,并将每次减去的数字作为商的数字,直到余数小于除数。 高精度除法函数 高精度除法函数是一种算法,用于对大整数进行除法运算。与普通整数除法不同,高精度除法需要处理非常大的数字,可能超出…

    2025年12月18日
    000
  • 高精度计算除法c语言

    C语言中实现高精度除法的方法有:1. 长除法,类似手算除法;2. 牛顿拉弗森法,通过迭代逼近商;3. 快速傅里叶变换,提高乘除法效率;4. 库函数,如GNU MPFR库,提供内置函数。高精度计算除法应用广泛,包括密码学、科学计算和金融领域。 高精度计算除法在 C 语言中的实现 1. 引言 高精度计算…

    2025年12月18日
    000
  • c语言高精度怎么除法

    C语言中高精度除法是一种模拟长除法的算法,可处理大数字的除法。具体步骤包括初始化、循环除法、减法、位移,重复上述步骤直至被除数为零或达到所需精度。通过逐位比较除数和被除数,并根据结果进行减法和位移操作,最终求出商。 C 语言中的高精度除法 在计算机中,高精度除法是指对具有许多有效数字的数字进行除法。…

    2025年12月18日
    000
  • pascal高精度除法程序

    Pascal 高精度除法程序通过数组和循环模拟除法过程。用户需要输入被除数和除数,程序逐位执行除法,并将商和余数输出。 Pascal 高精度除法程序 在计算机科学中,高精度除法是指对超过计算机整数或浮点数范围的数字进行除法运算。Pascal 语言支持高精度除法,可以通过使用外部库或编写自定义程序来实…

    2025年12月18日
    000
  • C++ 函数库与标准模板库的学习资源和社区支持

    学习资源:c++++ 标准库参考指南c++ 官网boost c++ 库stl cookbookc++ 常见面试问题社区支持:c++ 论坛stack overflow c++ 子论坛reddit c++ 子版块github c++ 代码库discord c++ 社区服务器 C++ 函数库与标准模板库的…

    2025年12月18日
    000
  • C++框架的团队协作最佳实践:提高工作效率

    通过遵守以下最佳实践,团队可以提高 c++++ 框架中的协作效率:使用版本控制系统,用于跟踪代码更改和协调协作。采用持续集成,以便及早发现问题并确保代码更改的稳定性。实施代码审查,以提高代码质量并减少错误。标准化代码风格,以增强可读性和消除混乱。建立清晰的沟通渠道和促进协作,以促进团队讨论和高效推进…

    2025年12月18日
    000
  • C++框架的社区资源:学习和支持渠道全攻略

    c++++ 框架的社区资源提供了学习和支持:论坛:stack overflow、c++ forum、boost forums教程和文档:cppcon、pluralsight、o’reilly media社区活动:c++ 用户组、meetups、github 组织实战案例:提供使用框架构建…

    2025年12月18日
    000
  • 如何将C++框架与深度学习集成

    将 c++++ 框架与深度学习集成可提升效率和算法能力,方法如下:安装 tensorflow c api 或 pytorch c++ api创建 c++ 项目加载深度学习模型:tensorflow 使用 loadsavedmodel,pytorch 使用 torch::jit::load集成深度学习…

    2025年12月18日
    000
  • 如何在 C++ 框架中集成持续集成和持续交付?

    在 c++++ 框架中集成持续集成和持续交付 (ci/cd) 包含以下步骤:代码更改触发 ci/cd 流程。ci 系统自动构建和测试代码。cd 系统将通过测试的代码部署到测试或生产环境。cd 系统监控应用程序并向开发人员提供反馈。 在 C++ 框架中集成持续集成和持续交付 持续集成 (CI) 和持续…

    2025年12月18日
    000
  • C++ 框架如何在跨平台场景中保持可扩展性和维护性?

    在 c++++ 开发中,框架可促进跨平台可扩展性和维护性:可扩展性:使用抽象类和接口实现平台无关的功能。利用代码生成工具自动化平台特定代码编写。组织代码为可重用模块以促进共享。维护性:应用统一的代码风格。进行单元测试以确保代码正确性。使用版本控制系统来跟踪更改并支持协作。实战案例:一个跨平台 gui…

    2025年12月18日
    000
  • C++框架与第三方代码的交互:确保兼容性和稳定性

    在 c++++ 开发中,与第三方代码交互时,最佳实践包括:使用版本控制和依赖关系管理工具,以跟踪版本和避免兼容性问题。通过抽象,创建一个隔离层,以减少与框架代码的耦合。确保接口兼容性,以避免编译或运行时错误。进行稳定性测试,以确保第三方代码与框架可靠地交互。建立持续集成管道,以快速检测和解决因第三方…

    2025年12月18日
    000
  • 如何衡量C++框架的学习进度?

    衡量 c++++ 框架学习进度的 5 个方法:完成任务:构建应用程序并实现功能,展示对框架基础知识的理解。问题解决:通过解决问题加深对框架的理解和底层原理的理解。代码阅读和比较:阅读示例代码并将其与自己的代码进行比较,发现知识差距。教程和文章:查找教程和文章,补充知识并获得不同视角。社区贡献:参与社…

    2025年12月18日
    000

发表回复

登录后才能评论
关注微信