gqa

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

前言 ✍ 在大模型论文学习中，相信很多读者和笔者一样，一开始都会有一种感觉：“现在大模型架构都差不多，主要是数据和算力在堆积。”当笔者慢慢总结llama、qwen、deepseek这些模型架构的时候发现，在 attention、位置编码、ffn 与归一化上，其实已经悄悄从经典 transforme…

程序猿
2025年12月1日 • 用户投稿
0000

关注微信