【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

程序猿 • 2025年12月1日 21:29:53 • 用户投稿 • 阅读 1

前言

✍ 在大模型论文学习中，相信很多读者和笔者一样，一开始都会有一种感觉：“现在大模型架构都差不多，主要是数据和算力在堆积。”当笔者慢慢总结llama、qwen、deepseek这些模型架构的时候发现，在 attention、位置编码、ffn 与归一化上，其实已经悄悄从经典 transformer 走到了另一套“默认配置”。相较于最初的 transformer，现在的主流大模型在架构上，已经逐渐从：

MQA → GQA（Grouped Query Attention）绝对位置编码 → RoPE（Rotary Positional Embedding）ReLU / GELU 前馈网络 → SwiGLU 前馈网络LayerNorm → RMSNorm + Pre-Norm…

因此，在本文的学习中，我们主要聚焦于目前的大模型”默认配置“的学习，了解现在的”Transformer“!

一、现如今的”Transformer“

读者肯定很疑惑，为什么我要把第一章名字起为现如今的”Transformer“，实际上在以前，不管是科研还是工作，大家都会把Transformer作为一个baseline去进行优化，就像BERT、GPT等等，一直沿用的是Transformer的架构。但到了现在，研究者发现其中模块的更替可以达到更好的的效果。因此，现如今的大模型，已经不再直接将以前的Transformer架构作为baseline，而是将更换了模块的Transformer架构作为baseline。那现如今的baseline模块长什么样子呢，笔者统计了比较经典的模块所采用的注意力机制、位置编码、MLP激活层以及归一化的方式:

模型家族

注意力

位置编码

MLP 激活

归一化

早期 GPT/BERT

MHA

绝对 PE / learned pos

GELU

LayerNorm

LLaMA 1/2/3 系列

GQA（大模型）

RoPE

SwiGLU

RMSNorm

Qwen2 / Qwen2.5

GQA

RoPE

SwiGLU

RMSNorm

Mistral 7B

GQA + sliding window

RoPE

SwiGLU

RMSNorm

DeepSeek-LLM 等

GQA/自研高效注意力

RoPE

SwiGLU

RMSNorm

Granite / Gemma 等

GQA/MQA

RoPE

SwiGLU/GeGLU

RMSNorm/LN

如表格所示, 对比早期 GPT/BERT 模型我们就可以发现了，现如今大模型的各个模块都有所改变：

瞬映

AI 快速创作数字人视频，一站式视频创作平台，让视频创作更简单。

57 查看详情注意力机制：MQA → GQA（Grouped Query Attention）位置编码：绝对位置编码 → RoPE（Rotary Positional Embedding）MLP 激活层：ReLU / GELU 前馈网络 → SwiGLU 前馈网络归一化： LayerNorm → RMSNorm + Pre-Norm

所以如果你能把这四件套讲明白，基本就把现代 LLM 架构里理清，并且可以快速找到文章的贡献点。

二、Attention Serious

2.1 Multi-Head Attention (MHA)

首先来回顾一下以前的注意力机制：

text{Attention}(Q,K,V) = text{softmax}left(frac{QK^top}{sqrt{d_k}}right)V

在标准的自注意力中，我们通过 $QK^T / sqrt{d_k}$ 来计算不同 token 之间的注意力权重。但作者发现，仅用一个注意力头往往难以同时捕捉多种语义关系（如词法、语义、句法等）。因此，Transformer 提出了多头注意力机制 (Multi-Head Attention, MHA)。

将输入特征通过不同的线性投影矩阵，映射到多个低维子空间中：

text{head}_i = text{Attention}(QW_i^Q, , KW_i^K, , VW_i^V)

然后将所有头拼接（concatenate）再线性变换：

text{MultiHead}(Q,K,V) = text{Concat}(text{head}_1, dots, text{head}_h) W^O

MHA通过多个小头可以从不同角度捕捉语义信息，增强模型的表达能力和稳定性，比单头更鲁棒。

代码手撕

import torchimport torch.nn as nnimport torch.nn.functional as Fclass MultiHeadAttention(nn.Module):    def __init__(self, d_model, num_heads, dropout=0.0):        super().__init__()        assert d_model % num_heads == 0        self.d_model = d_model        self.num_heads = num_heads        self.head_dim = d_model // num_heads        self.w_q = nn.Linear(d_model, d_model)        self.w_k = nn.Linear(d_model, d_model)        self.w_v = nn.Linear(d_model, d_model)        self.w_o = nn.Linear(d_model, d_model)        self.dropout = nn.Dropout(dropout)    def forward(self, x, attn_mask=None):        """        x: [B, L, d_model]        """        B, L, _ = x.size()        # 1. 线性投影        Q = self.w_q(x)  # [B, L, d_model]        K = self.w_k(x)        V = self.w_v(x)        # 2. reshape 为 [B, H, L, Dh]        def reshape_heads(t):            return t.view(B, L, self.num_heads, self.head_dim).transpose(1, 2)        Q = reshape_heads(Q)        K = reshape_heads(K)        V = reshape_heads(V)        # Q,K,V: [B, H, L, Dh]        # 3. 缩放点积注意力        scores = Q @ K.transpose(-2, -1) / (self.head_dim ** 0.5)  # [B, H, L, L]        if attn_mask is not None:            scores = scores.masked_fill(attn_mask == 0, float('-inf'))        attn = F.softmax(scores, dim=-1)        attn = self.dropout(attn)        out = attn @ V  # [B, H, L, Dh]        # 4. 合并头        out = out.transpose(1, 2).contiguous().view(B, L, self.d_model)        return self.w_o(out)

2.2 Multi-Query Attention (MQA)

有了 MHA 之后，大家第一反应是：头越多越好，越能学到多种语义关系。但在大模型、尤其是 Decoder-Only + 长上下文 + 自回归生成的场景下，MHA 暴露出了一个非常现实的问题：

KV Cache 太贵了。

在自回归生成过程中，每生成一个新 token，都需要用到历史所有位置的K, V

对于标准 MHA：每个注意力头都维护一份自己的 K_h, V_h 如果有 h 个头，那么 KV Cache 的内存开销大致是: mathcal{O}(h cdot L cdot d_{text{head}})

当我们把头数堆到 32、64 甚至更多，再把上下文长度拉到 32K、64K 时，这个开销就会变成显存吞噬怪，直接限制推理速度与可部署性。因此，为了在几乎不损失模型效果的前提下，压缩 KV Cache 和带宽成本，就提出了 Multi-Query Attention（MQA）。

MHA中的每一个头都是独享一份$K, V$，相反的，MQA 提出了所有的头共享同一份$K, V$也就是说，只保留一组 W^K, W^V ，而 W_i^Q 仍然为每个头独立：

Q_i = X W_i^Q,quad K = X W^K,quad V = X W^V.

于是每个头的注意力就变成：

text{head}_i = text{Attention}(Q_i, K, V) = text{softmax}left(frac{Q_i K^top}{sqrt{d_k}}right) V.

最后依然是拼接再线性变换：

text{MQA}(X) = text{Concat}(text{head}_1, dots, text{head}_h) W^O.

? 经验发现“多 KV”并没有带来线性收益, Q 仍然是多头的，多头仍能捕捉多种语义关系。

代码手撕

class MultiQueryAttention(nn.Module):    def __init__(self, d_model, num_heads, dropout=0.0):        super().__init__()        assert d_model % num_heads == 0        self.d_model = d_model        self.num_heads = num_heads        self.head_dim = d_model // num_heads        self.w_q = nn.Linear(d_model, d_model)        # 注意：K/V 只有一组，所以输出维度是 head_dim        self.w_k = nn.Linear(d_model, self.head_dim)        self.w_v = nn.Linear(d_model, self.head_dim)        self.w_o = nn.Linear(d_model, d_model)        self.dropout = nn.Dropout(dropout)    def forward(self, x, attn_mask=None):        """        x: [B, L, d_model]        """        B, L, _ = x.size()        # 1. 多头 Q        Q = self.w_q(x)  # [B, L, d_model]        Q = Q.view(B, L, self.num_heads, self.head_dim).transpose(1, 2)        # Q: [B, H, L, Dh]        # 2. 单头 K/V        K = self.w_k(x)  # [B, L, Dh]        V = self.w_v(x)  # [B, L, Dh]        # 3. 为了和 Q 匹配，将 K/V 在头维上 broadcast        K = K.unsqueeze(1)  # [B, 1, L, Dh]        V = V.unsqueeze(1)  # [B, 1, L, Dh]        K = K.expand(B, self.num_heads, L, self.head_dim)        V = V.expand(B, self.num_heads, L, self.head_dim)        # 4. 缩放点积注意力（与 MHA 相同）        scores = Q @ K.transpose(-2, -1) / (self.head_dim ** 0.5)  # [B, H, L, L]        if attn_mask is not None:            scores = scores.masked_fill(attn_mask == 0, float('-inf'))        attn = F.softmax(scores, dim=-1)        attn = self.dropout(attn)        out = attn @ V  # [B, H, L, Dh]        out = out.transpose(1, 2).contiguous().view(B, L, self.d_model)        return self.w_o(out)

2.3 Grouped Query Attention (GQA)

根据前面两节的分析，我们可以总结出：

MHA：每个头都有独立的 K_h, V_h ，表达能力强，但 KV Cache 成本最高；MQA：所有头共享同一份 K, V ，KV Cache 成本最低，但多头之间视角差异弱，表达能力稍打折

于是就自然出现了一个折中思路：能不能在 “省 KV” 和 “头之间有点差异” 之间找个平衡？这就是 Grouped-Query Attention（GQA）。GQA 的核心思想：Q 仍然是很多头，但 K/V 的头数减少为更少的组（num_kv_heads），每组 KV 服务若干个 Q 头。

代码手撕

class GroupedQueryAttention(nn.Module):    def __init__(self, d_model, num_q_heads, num_kv_heads, dropout=0.0):        super().__init__()        assert d_model % num_q_heads == 0        assert num_q_heads % num_kv_heads == 0        self.d_model = d_model        self.num_q_heads = num_q_heads        self.num_kv_heads = num_kv_heads        self.head_dim = d_model // num_q_heads        self.group_size = num_q_heads // num_kv_heads  # 每组多少个 Q 头共享一个 KV        self.w_q = nn.Linear(d_model, d_model)        self.w_k = nn.Linear(d_model, num_kv_heads * self.head_dim)        self.w_v = nn.Linear(d_model, num_kv_heads * self.head_dim)        self.w_o = nn.Linear(d_model, d_model)        self.dropout = nn.Dropout(dropout)    def forward(self, x, attn_mask=None):        """        x: [B, L, d_model]        """        B, L, _ = x.size()        # 1. Q: 多头； K/V: 少量头        Q = self.w_q(x)  # [B, L, d_model]        K = self.w_k(x)  # [B, L, num_kv_heads * head_dim]        V = self.w_v(x)        Q = Q.view(B, L, self.num_q_heads, self.head_dim).transpose(1, 2)        K = K.view(B, L, self.num_kv_heads, self.head_dim).transpose(1, 2)        V = V.view(B, L, self.num_kv_heads, self.head_dim).transpose(1, 2)        # Q: [B, Hq,  L, Dh]        # K,V: [B, Hkv, L, Dh]        # 2. 将每个 KV 头“扩展”为 group_size 个 Q 头使用        #    例如 Hq=8, Hkv=2 -> group_size=4        K = K.repeat_interleave(self.group_size, dim=1)  # [B, Hq, L, Dh]        V = V.repeat_interleave(self.group_size, dim=1)        # 3. 缩放点积注意力        scores = Q @ K.transpose(-2, -1) / (self.head_dim ** 0.5)  # [B, Hq, L, L]        if attn_mask is not None:            scores = scores.masked_fill(attn_mask == 0, float("-inf"))        attn = F.softmax(scores, dim=-1)        attn = self.dropout(attn)        out = attn @ V  # [B, Hq, L, Dh]        # 4. 合并头        out = out.transpose(1, 2).contiguous().view(B, L, self.d_model)        return self.w_o(out)

三、归一化：LayerNorm → RMSNorm + Pre-Norm

在 Transformer 里，归一化（Normalization）主要解决两个问题：

深层网络训练不稳定：梯度可能爆炸或消失；不同层输出分布漂移，导致学习变慢。

最早的 Transformer 使用的是 LayerNorm + Post-Norm 残差结构（指在全连接层后跟上一个归一化层）

但到了 LLaMA、DeepSeek 等大模型时，大家开始逐渐转向：RMSNorm + Pre-Norm（指在全连接层前跟上一个归一化层）

? Post-Norm（原始 Transformer 用法）

最早的 Transformer 论文（Attention Is All You Need）使用的是 Post-Norm,代码结构类似：

# Post-Norm 结构out = x + sublayer(x)out = layer_norm(out)

? Pre-Norm（现代 LLM 常用）

大多数现代 LLM（如 LLaMA、DeepSeek 系列）改成了 Pre-Norm：代码结构类似：

# Pre-Norm 结构h = layer_norm(x)out = x + sublayer(h)

? 实践上，Pre-Norm 再配合 RMSNorm，只调节尺度不改均值，在 Decoder-only 结构里训练更稳定、实现也更简单。

3.1 LayerNorm

Layer Normalization（LN）是在 Transformer 中使用最广的归一化方式之一。给定一个 token 的隐藏表示 x in mathbb{R}^{d} ，LayerNorm 对其特征维度进行归一化：

mu = frac{1}{d} sum_{i=1}^{d} x_i,quad sigma^2 = frac{1}{d} sum_{i=1}^{d} (x_i – mu)^2

text{LN}(x) = frac{x – mu}{sqrt{sigma^2 + epsilon}} cdot gamma + beta

其中：

gamma, beta in mathbb{R}^{d} 是可学习的缩放和平移参数；归一化是在单个样本、单个 token 的通道维度上完成的。

? 直觉理解：

在 PyTorch 中，你平时看到的 nn.LayerNorm 就是这个东西：

import torchimport torch.nn as nnx = torch.randn(2, 4, 8)  # [B, L, d_model]ln = nn.LayerNorm(8)y = ln(x)  # 每个位置的最后一维做 LN

? 1.为什么不用 BatchNorm，而用 LayerNorm / RMSNorm？(面经)

这一问是面试官很喜欢的一个考点，尤其是 Transformer / LLM 岗位。核心区别在于：归一化时用哪些维度来统计均值与方差。

BatchNorm（BN）：在 CV 里常用，对 batch 维度 + 空间维度做统计；对每个通道c，使用整批数据的统计量：mu_c = mathbb{E}_{N,H,W}x_{n,c,h,w} LayerNorm（LN）：对单个样本、单个 token 的所有特征求均值和方差，不依赖 batch 大小。

在 Transformer / LLM 场景中，BN 存在几个问题：

序列长度不固定：BN 在变长序列上不自然，统计维度不好选；推理阶段 batch 很小甚至为 1：BN 的 running mean/var 与训练时差异大，容易分布漂移；自注意力中不同 token 之间差异大：BN 混合不同 token 的统计量，会引入额外噪声。

因此，大模型里更偏向用 LayerNorm / RMSNorm 这种“不依赖 batch、只看自己”的归一化方式。

3.2 RMSNorm

RMSNorm 是基于“层归一化中主要起作用的是缩放因子，而非平移因子”这个发现而提出的归一化方法。在层归一化中需要减去均值，而模型在训练过程中已经学会通过投影矩阵自动调节均值；而 gamma 的作用是调整每一维的相对 scale，是表达力的核心。给定 x in mathbb{R}^d ，RMSNorm 的公式为：

text{RMS}(x) = sqrt{frac{1}{d} sum_{i=1}^{d} x_i^2 + epsilon}

text{RMSNorm}(x) = frac{x}{text{RMS}(x)} cdot gamma

? 直觉理解：

? 实践上，在 Decoder-only 大模型里：RMSNorm + Pre-Norm 组合在超深层网络（几十层）上表现更稳定，这也是 LLaMA / DeepSeek / Qwen 等系列广泛采用它的原因之一。

代码手撕

class RMSNorm(nn.Module):    def __init__(self, d_model, eps=1e-8):        super().__init__()        self.weight = nn.Parameter(torch.ones(d_model))        self.eps = eps    def forward(self, x):        """        x: [B, L, d_model]        """        # 均方根：sqrt(mean(x^2))        rms = x.pow(2).mean(dim=-1, keepdim=True).add(self.eps).sqrt()        x_norm = x / rms        return self.weight * x_norm

四、总结

本章我们先把现代大模型里的两块“基础设施”打牢：一块是从 MHA → MQA → GQA 的注意力演化，用更少的 KV 头（甚至共享 KV）在不明显掉点的前提下，大幅降低 KV Cache 与长上下文显存开销；另一块是从 LayerNorm → RMSNorm + Pre-Norm 的归一化升级，用“只归一化能量”的 RMSNorm 配合 Pre-Norm 结构，让超深的 Decoder-only 模型在训练和推理中都更加稳定。后面的章节，我们再把 RoPE / SwiGLU / MoE / MLA 这些“进阶武器”一个个拆开，拼成一整套现代 LLM 的“架构面经图谱”。

以上就是【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/986610.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

CSS布局中inline-flex和block-flex区别_Flex应用解析

上一篇 2025年12月1日 21:29:50

在Java中如何解决classpath找不到的问题_Java项目环境故障排查与处理方法

下一篇 2025年12月1日 21:29:54

用户投稿

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
15000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 用户投稿
5000
用户投稿

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
3000
用户投稿

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
3000
用户投稿

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
用户投稿

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
用户投稿

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
1000
用户投稿

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
1000
用户投稿

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
3000
用户投稿

为什么在父元素为inline或inline-block时，子元素设置width: 100%会出现不同的显示效果？

width:100%在父元素为inline或inline-block下的显示问题问题提出当父元素为inline或inline-block时，内部元素设置width:100%会出现不同的显示效果。以代码为例：测试内容这是inline-block span 效果1：父元素为inline-bloc…

程序猿
2025年12月24日
5000
用户投稿

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
1000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 用户投稿
2000
用户投稿

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
2000
用户投稿

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
1000
用户投稿

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
2000
用户投稿

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
1000
用户投稿

动态样式类名为何失效：嵌套与并列选择器的区别在哪里？

动态样式类名不起作用：嵌套与并列问题在使用动态样式类名时，有时会遇到尽管触发事件但样式却没有改变的情况。这可能是由于使用了后代选择器而造成的。以提供的代码为例：块中，嵌套的类是content类的后代。这意味着类仅在元素包含子元素时才能生效。为了解决这个问题，需要将与类编写为并列，而不是嵌套方…

程序猿
2025年12月24日
3000
用户投稿

CSS 定位属性：六种定位方式的区别是什么？

CSS中的定位属性及其区别 CSS中的 position 属性定义元素的定位行为，它共有六个可供选择的属性值，分别是：静态定位 (static)：默认值，元素按照正常文档流进行定位。相对定位 (relative)：元素相对于自身原本的位置进行偏移。绝对定位 (absolute)：元素相对于最近的非…

程序猿
2025年12月24日
1000
用户投稿

父元素仅设置 Line-height 对子元素高度的影响：行内块级元素与块级元素有什么区别？

父元素仅设置 Line-height 对子元素的块级或行内块级元素的影响当父元素只设置了 Line-height 而没有设置高度时，对其子元素的影响将取决于子元素的类型。如果子元素是行内块级元素，如 inine-block，父元素的 Line-height 将成为子元素的高度。这是因为行内块级元…

程序猿
2025年12月24日
1000
用户投稿

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
3000