Kimi Linear 一作张宇：关于模型训练的一些感想

程序猿 • 2025年11月5日 02:08:38 • 用户投稿 • 阅读 0

月之暗面发布了名为 “kimi linear” 的混合线性注意力架构，据称在短距离、长距离及强化学习（rl）等多种扩展场景中均优于传统全注意力方法。kimi linear 由 3 份 kimi delta attention（kda）和 1 份全局 mla 组成。kda 是对 gated deltanet 的改进，通过细粒度门控来压缩有限状态 rnn 的记忆。

近日，Kimi Linear 核心作者分享了关于他对于该项目的一些感想：

作者：yzhangcs 链接：https://www.zhihu.com/question/1967345030881584585/answer/1967730385816385407

终于忙完了 Kimi Linear 的 Model Card 和 Paper ArXiv 上传，放空了半天。现在稍微分享一下个人感想，顺便做一些澄清。

模型架构

模型整体架构设计如图所示，延续了Moonlight的设计思路，别的回答已经有不少优秀的解读了。这次最大的不同在于我们将MoE的稀疏度设置得更激进，从8到32。而 Kimi Linear 的核心设计原则，第一主要采用Linear Attention，这也是名字的由来，具体来说则是KDA，在GDN的基础上融入了 GLA 的细粒度门控。核心 Recurrent 公式中，关键的 Decay 部分已经标红了。

这张图的tikz代码主要修改自delta product，当然也借鉴了RWKV7，如果某些人认为这是抄袭那随便你

其次，这是一个hybrid model，考虑到纯Linear Attention对工业级 LLM 来说风险还是太大，我们最终采用了Hybrid Model的方案，也就是KDA:MLA的层混合比例为3:1。经过Ablation Study，我们发现3:1是兼顾效率和性能的最优比例。

最终成果是，在相同的 5.7T Token 训练量以及相似的 3B 激活参数下，模型效果得到了巨大提升。我们的许多 Benchmark 对比都呈现出「大人打小孩」的态势，说实话有些setting不太 fair，只能说它作为一个小规模模型训出的成果，能够给大家带来一些新的 vibe。

个人体验下来感觉非常棒，在一些野生玩家那里体验也挺好的。（https://www.reddit.com/r/LocalLLaMA/comments/1ojz8pz/kimi_linear_released/）

虽然在 math/code 等一些 benchmark 上由于训练量和参数规模还很不够，比不上其他厂商同参数规模的模型，但模型的 personality非常出色，比较有小K2感。在解码方面，如果考虑到 KDA 的 KV Cache 占用小带来的 Batch Size 补偿，最终加速比能达到 6 倍左右。整体效果完全符合预期。

个人感想

训练过程

这是第一次作为核心成员去 scale 这么大的模型，之前个人 research 玩得最多也就是 7B Dense，训个 100B Token，32 卡跑个几天也就够了。这次则是 scale 到了 48B MoE 的规模，5.7T 的训练量。当然，对真正的大模型来说这还是只小卡拉米，不过对我个人来说算是一次突破。管理模型训练是一件非常难受的事情。分布式总是会中断，尽管有自动重启，但还是不太放心，因此总是需要人盯。然后本人作息又非常抽象，和 collaborator 们（johnson & momo，名字用代号了）经常是 UTC+8 过湾区时间，湾区过北京时间。

Ablation 也经过了漫长的过程，有不少细节论文中没有提到。比如NoPE 还是 RoPE经过怎样的选择；Forget gate 到底选择是 pure sigmoid 还是 GDN style；output gate 的作用，这些都经过了漫长的探索，我们综合考虑short & long context最终才收敛到了现在的形式。

Scaling Ladder 是 Kimi 内部 scale 模型的一个传统。我们会从一个小的（比如 1B 激活参数）开始做起，逐步在 Benchmark 上要打败 Baseline，与此同时需要监控相应的「内科」。等到每个 scale 的每一关都过了，才会进行到下一阶段。并且由于 Hybrid Linear 是开天辟地头一遭，自然经过了更多的审视。比如长文有很多典型Benchmark，MRCR、RULER、Frames 等等作为拦路虎，当有一个明显差异都要 revert 到上一阶段，无论是查 Bug 还是看推理引擎（对于 MoE 模型，评测时推理引擎的支持是必不可少的，否则速度无法忍受）。这些我都非常理解也很认同，但是当多种因素交织时——到底是推理 Bug 导致掉点，还是「内科」炸了，还是 Linear 本身不行——导致的失败会让人非常沮丧。最终的5.7T训练过程也是波折不断，比如模型中有两个A_log，bias参数，一开始训的时候是保持的bf16，整个阶段虽然没炸，但一直都在上涨，让人很担心，后来训练中途切到了fp32，发现这两个vector的max value 飞速下降，这才意识到对于这些关键参数保持fp32是非常必要的，但是我们是中途切换，有多大的影响呢？不知道，只能说是对于flagship model的一次derisk了。

好在最后我们交出了一份还算满意的答卷。

关于postrain，之前 Moonlight 级别的 posttrain recipe 还不太成熟，有尝试过直接迁移 K2的方案，发现会遇到一些不太吸收的问题。为此和 fanqing & chengyin，还有 postrain team 的小伙伴进行了长时间的攻坚，期间尝试了几十种不同的数据配方。我们也观测到许多有意思的现象，特别是对于 Kimi Linear 这种 scale 的小模型而言，榜单成绩和实际使用体验往往是不可兼得的。如果 Math & Code 分数很高，你往往Vibe起来会非常差（非常 Thinking）。因此，最终我们选择了一个在榜单成绩和实际体验之间平衡得比较好的方案。

Bitter Lesson：这篇 Tech Report 最初的目标是达到类似size模型的SOTA。但事后来看资源限制短时间内没法达成这个目标。因此最后我们的主战场放到了 1T fair comparisons 上，这些实验本身是 Scaling Ladder 的一部分，也都满足公平比较。后面还是希望释放更多的 Fair Baseline，有一些更丰富的比较。因此这个 Report 的定位是一个技术验证，也是下一代K3的前奏。

其他

这两天看到了非常多关于 model 和 arch 的评价，最大的部分是关于和 RWKV7 的比较，区别是什么 @sonta在另一个回答已经说了，如果你们还是觉得一样那随便你好了。

Kimi 的目标是下一代 flagship models，正如 Moonlight 中致敬了 Muon 的作者，Kimi Linear 也会引用能够aware 的 previous work，不存在刻意忽略的动机，以及我想说，与其整天拉踩别人，还是好好想想怎么 scale 自己的东西吧，整天对线又有啥用呢？

我想说我觉得个人在一个比较恰当的时机加入了 Kimi，恰好在 deepseek R1 开源的时候，促使各家厂商都纷纷转向了开源（因此今年仍然有机会继续维护 FLA，顺手实现了 NSA :)），刚好今年算是 agent 大年，对于动辄 32k + 的推理长度，Linear Attention 刚好可以发挥所长。并且个人作为 FLA 的 core contributors 之一，将之发扬光大给了我最大的驱动力。去年一整年都捐给了 FLA，增加了 scaling 的各种支持，各种配套的 fused kernels，Cache 管理，varlen training，FLA 各种状态都 ready 了，顺风顺水来到了一个关键的时间节点被 scaling。并且我也觉得时间窗口会比较短暂，大家本身就是对 hybrid model 将信将疑，如果 FLA team @sonta @zhiyuan1i 都没法去 scaling 或者 scaling 失败了，那这条技术路线就会受到很大的质疑。好在目前看起来的结果还行。

当前，Linear Attention 的迭代路线正逐渐收敛到 Delta-variants。近期也有很多其他工作浮现，如TTT/Titans，但这些方法在硬件效率方面似乎仍有待提升。与此同时，Sparse Attention 也成为了另一条备受关注的技术路线，尤其是 NSA的设计理念，我个人非常欣赏。然而，究竟哪条技术路线更具优势，目前仍是一个未知数。总的而言，Efficient Attention无疑是当前研究领域的一大聚焦点。希望 Kimi 此次开源的 KDA能够为业界带来更多启发，推动Hybrid models的真正落地！

以上就是Kimi Linear 一作张宇：关于模型训练的一些感想的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/303650.html

ai deepseek gate red 区别大模型自动重启

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

怎样使用ThinkPHP6进行多站点管理？

上一篇 2025年11月5日 02:08:35

永劫无间手游左右键振刀怎么取消左右键振刀取消方法

下一篇 2025年11月5日 02:08:40

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

php常量怎么用_PHP常量（define/const）定义与使用方法

PHP中可通过define函数和const关键字定义常量，用于存储不可变值。define适用于全局作用域，支持动态名称和条件定义，如define(‘SITE_NAME’, ‘MyWebsite’)；const在编译时生效，语法简洁但限制多，只能在类或全…

程序猿
2026年5月10日
0000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

JavaScript 动态菜单点击高亮效果实现教程

本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理，当用户点击菜单项时，被点击项会高亮显示（绿色），同时其他菜单项恢复默认样式（白色）。这种方法避免了不必要的DOM操作，提高了性能和代码可维护性，确保了无论点击方向如何，功能都能稳定运行。动态菜单高亮…

程序猿
2026年5月10日
2000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000

发表回复

登录后才能评论