​揭秘NVIDIA大模型推理框架:TensorRT-LLM

一、TensorRT-LLM 的产品定位

TensorRT-LLM是NVIDIA为大型语言模型(LLM)开发的可扩展推理方案。它基于TensorRT深度学习编译框架构建、编译和执行计算图,并借鉴了FastTransformer中高效的Kernels实现。此外,它还利用NCCL实现设备间的通信。开发者可以根据技术发展和需求差异,定制算子以满足特定需求,例如基于cutlass开发定制的GEMM。TensorRT-LLM是NVIDIA官方推理方案,致力于提供高性能并不断完善其实用性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

TensorRT-LLM在GitHub上开源,分为两个分支:Release branch和Dev branch。Release branch每月更新一次,而Dev branch会更频繁地更新来自官方或社区中的功能,方便开发者体验和评估最新功能。下图展示了TensorRT-LLM的框架结构,除了绿色TensorRT编译部分和涉及硬件信息的kernels外,其他部分都是开源的。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

TensorRT-LLM 还提供了类似于 Pytorch 的 API 来降低开发者的学习成本,并提供了许多预定义好的模型供用户使用。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

由于大语言模型的尺寸较大,可能无法在单张显卡上完成推理,因此TensorRT-LLM提供了两种并行机制:Tensor Parallelism和Pipeline Parallelism,以支持多卡或多机推理。这些机制允许将模型分割成多个部分,并将其分布在多个显卡或机器上进行并行计算,以提高推理性能。Tensor Parallelism通过将模型参数分布在不同设备上,并同时计算不同部分的输出来实现并行计算。而Pipeline Parallelism则将模型分割成多个阶段,每个阶段在不同设备上并行计算,将输出传递给下一个阶段,从而实现整体

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

二、TensorRT-LLM 的重要特性

TensorRT-LLM是一个强大的工具,具有丰富的模型支持和低精度推理功能。首先,TensorRT-LLM支持主流的大语言模型,包括开发者完成的模型适配,比如Qwen(千问),并已纳入官方支持。这意味着用户可以轻松地基于这些预定义的模型进行扩展或定制,方便快捷地应用到自己的项目中。其次,TensorRT-LLM默认采用FP16/BF16的精度推理方式。这种低精度推理不仅可以提高推理性能,还可以利用业界的量化方法进一步优化硬件吞吐。通过降低模型的精度,TensorRT-LLM可以在不牺牲太多准确性的前提下,大幅度提升推理的速度和效率。综上所述,TensorRT-LLM的丰富模型支持和低精度推理功能使得它成为一个非常实用的工具。无论是对于开发者还是研究人员来说,TensorRT-LLM都能够提供高效的推理解决方案,帮助他们在深度学习应用中取得更好的性能表现。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

另外一个特性就是 FMHA(fused multi-head attention) kernel 的实现。由于 Transformer 中最为耗时的部分是 self-attention 的计算,因此官方设计了 FMHA 来优化 self-attention 的计算,并提供了累加器分别为 fp16 和 fp32 不同的版本。另外,除了速度上的提升外,对内存的占用也大大降低。我们还提供了基于 flash attention 的实现,可以将 sequence-length 扩展到任意长度。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

如下为 FMHA 的详细信息,其中 MQA 为 Multi Query Attention,GQA 为 Group Query Attention。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

另外一个 Kernel 是 MMHA(Masked Multi-Head Attention)。FMHA 主要用在 context phase 阶段的计算,而 MMHA 主要提供 generation phase 阶段 attention 的加速,并提供了 Volta 和之后架构的支持。相比 FastTransformer 的实现,TensorRT-LLM 有进一步优化,性能提升高达 2x。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

另外一个重要特性是量化技术,以更低精度的方式实现推理加速。常用量化方式主要分为 PTQ(Post Training Quantization)和 QAT(Quantization-aware Training),对于 TensorRT-LLM 而言,这两种量化方式的推理逻辑是相同的。对于 LLM 量化技术,一个重要的特点是算法设计和工程实现的 co-design,即对应量化方法设计之初,就要考虑硬件的特性。否则,有可能达不到预期的推理速度提升。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

TensorRT 中 PTQ 量化步骤一般分为如下几步,首先对模型做量化,然后对权重和模型转化成 TensorRT-LLM 的表示。对于一些定制化的操作,还需要用户自己编写 kernels。常用的 PTQ 量化方法包括 INT8 weight-only、SmoothQuant、GPTQ 和 AWQ,这些方法都是典型的 co-design 的方法。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

INT8 weight-only 直接把权重量化到 INT8,但是激活值还是保持为 FP16。该方法的好处就是模型存储2x减小,加载 weights 的存储带宽减半,达到了提升推理性能的目的。这种方式业界称作 W8A16,即权重为 INT8,激活值为 FP16/BF16——以 INT8 精度存储,以 FP16/BF16 格式计算。该方法直观,不改变 weights,容易实现,具有较好的泛化性能。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

第二个量化方法是 SmoothQuant,该方法是 NVIDIA 和社区联合设计的。它观察到权重通常服从高斯分布,容易量化,但是激活值存在离群点,量化比特位利用不高。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

SmoothQuant 通过先对激活值做平滑操作即除以一个scale将对应分布进行压缩,同时为了保证等价性,需要对权重乘以相同的 scale。之后,权重和激活都可以量化。对应的存储和计算精度都可以是 INT8 或者 FP8,可以利用 INT8 或者 FP8 的 TensorCore 进行计算。在实现细节上,权重支持 Per-tensor 和 Per-channel 的量化,激活值支持 Per-tensor 和 Per-token 的量化。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

第三个量化方法是 GPTQ,一种逐层量化的方法,通过最小化重构损失来实现。GPTQ 属于 weight-only 的方式,计算采用 FP16 的数据格式。该方法用在量化大模型时,由于量化本身开销就比较大,所以作者设计了一些 trick 来降低量化本身的开销,比如 Lazy batch-updates 和以相同顺序量化所有行的权重。GPTQ 还可以与其他方法结合使用如 grouping 策略。并且,针对不同的情况,TensorRT-LLM 提供了不同的实现优化性能。具体地,对 batch size 较小的情况,用 cuda core 实现;相对地,batch size 较大时,采用 tensor core 实现。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

第四种量化方式是 AWQ。该方法认为不是所有权重都是同等重要的,其中只有 0.1%-1% 的权重(salient weights)对模型精度贡献更大,并且这些权重取决于激活值分布而不是权重分布。该方法的量化过程类似于 SmoothQuant,差异主要在于 scale 是基于激活值分布计算得到的。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

除了量化方式之外,TensorRT-LLM 另外一个提升性能的方式是利用多机多卡推理。在一些场景中,大模型过大无法放在单个 GPU 上推理,或者可以放下但是影响了计算效率,都需要多卡或者多机进行推理。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

TensorRT-LLM 目前提供了两种并行策略,Tensor Parallelism 和 Pipeline Parallelism。TP 是垂直地分割模型然后将各个部分置于不同的设备上,这样会引入设备之间频繁的数据通讯,一般用于设备之间有高度互联的场景,如 NVLINK。另一种分割方式是横向切分,此时只有一个横前面,对应通信方式是点对点的通信,适合于设备通信带宽较弱的场景。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

最后一个要强调的特性是 In-flight batching。Batching 是提高推理性能一个比较常用的做法,但在 LLM 推理场景中,一个 batch 中每个 sample/request 的输出长度是无法预测的。如果按照静态batching的方法,一个batch的时延取决于 sample/request 中输出最长的那个。因此,虽然输出较短的 sample/request 已经结束,但是并未释放计算资源,其时延与输出最长的那个 sample/request 时延相同。In-flight batching 的做法是在已经结束的 sample/request 处插入新的 sample/request。这样,不但减少了单个 sample/request 的延时,避免了资源浪费问题,同时也提升了整个系统的吞吐。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

三、TensorRT-LLM 的使用流程

TensorRT-LLM 与 TensorRT的 使用方法类似,首先需要获得一个预训练好的模型,然后利用 TensorRT-LLM 提供的 API 对模型计算图进行改写和重建,接着用 TensorRT 进行编译优化,然后保存为序列化的 engine 进行推理部署。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

以 Llama 为例,首先安装 TensorRT-LLM,然后下载预训练模型,接着利用 TensorRT-LLM 对模型进行编译,最后进行推理。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

对于模型推理的调试,TensorRT-LLM 的调试方式与 TensorRT 一致。由于深度学习编译器,即 TensorRT,提供的优化之一是 layer 融合。因此,如果要输出某层的结果,就需要将对应层标记为输出层,以防止被编译器优化掉,然后与 baseline 进行对比分析。同时,每标记一个新的输出层,都要重新编译 TensorRT 的 engine。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

对于自定义的层,TensorRT-LLM 提供了许多 Pytorch-like 算子帮助用户实现功能而不必自己编写 kernel。如样例所示,利用 TensorRT-LLM 提供的 API 实现了 rms norm 的逻辑,TensorRT 会自动生成 GPU 上对应的执行代码。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

如果用户有更高的性能需求或者 TensorRT-LLM 并未提供实现相应功能的 building blocks,此时需要用户自定义 kernel,并封装为 plugin 供 TensorRT-LLM 使用。示例代码是将 SmoothQuant 定制 GEMM 实现并封装成 plugin 后,供 TensorRT-LLM 调用的示例代码。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

四、TensorRT-LLM 的推理性能

关于性能、配置等细节都可以在官网看到,在此不做详细介绍。该产品从立项开始一直与国内很多大厂都有合作。通过反馈,一般情况下,TensorRT-LLM 从性能角度来说是当前最好的方案。由于技术迭代、优化手段、系统优化等众多因素会影响性能,并且变化非常快,这里就不详细展开介绍 TensorRT-LLM 的性能数据。大家如果有兴趣,可以去官方了解细节,这些性能都是可复现的。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

值得一提的是,TensorRT-LLM 跟自己之前的版本比,性能有持续地提升。如上图所示,在 FP16 基础上,采用了 KVQuant 后,速度一致的情况下降低了显存的使用量。使用 INT8,可以看到明显的吞吐的提升,同时显存用量进一步降低。可见,随着 TensorRT-LLM 优化技术的持续演进,性能会有持续地提升。这个趋势会持续保持。

五、TensorRT-LLM 的未来展望

LLM 是一个推理成本很高、成本敏感的场景。我们认为,为了实现下一个百倍的加速效果,需要算法和硬件的共同迭代,通过软硬件之间 co-design 来达到这个目标。硬件提供更低精度的量化,而软件角度则利用优化量化、网络剪枝等算法,来进一步提升性能。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

TensorRT-LLM,将来 NVIDIA 会持续致力于提升 TensorRT-LLM 的性能。同时通过开源,收集反馈和意见,提高它的易用性。另外,围绕易用性,会开发、开源更多应用工具,如 Model zone 或者量化工具等,完善与主流框架的兼容性,提供从训练到推理和部署端到端的解决方案。

​揭秘NVIDIA大模型推理框架:TensorRT-LLM

六、问答环节

Q1:是否每一次计算输出都要反量化?做量化出现精度溢出怎么办?

A1:目前 TensorRT-LLM 提供了两类方法,即 FP8 和刚才提到的 INT4/INT8 量化方法。低精度如果 INT8 做 GEMM 时,累加器会采用高精度数据类型,如 fp16,甚至 fp32 以防止 overflow。关于反量化,以 fp8 量化为例,TensorRT-LLM 优化计算图时,可能动自动移动反量化结点,合并到其它的操作中达到优化目的。但对于前面介绍的 GPTQ 和 QAT,目前是通过硬编码写在 kernel 中,没有统一量化或反量化节点的处理。

Q2:目前是针对具体模型专门做反量化吗?

A2:目前的量化的确是这样,针对不同的模型做支持。我们有计划做一个更干净的api或者通过配置项的方式来统一支持模型的量化。

Q3:针对最佳实践,是直接使用 TensorRT-LLM 还是与 Triton Inference Server 结合在一起使用?如果结合使用是否会有特性上的缺失?

A3:因为一些功能未开源,如果是自己的 serving 需要做适配工作,如果是 triton 则是一套完整的方案。

Q4:对于量化校准有几种量化方法,加速比如何?这几种量化方案效果损失有几个点?In-flight branching 中每个 example 的输出长度是不知道的,如何做动态的 batching?

A4:关于量化性能可以私下聊,关于效果,我们只做了基本的验证,确保实现的 kernel 没问题,并不能保证所有量化算法在实际业务中的结果,因为还有些无法控制的因素,比如量化用到的数据集及影响。关于 in-flight batching,是指在 runtime 的时候去检测、判断某个 sample/request 的输出是否结束。如果是,再将其它到达的 requests 插进来,TensorRT-LLM 不会也不能预告预测输出的长度。

Q5:In-flight branching 的 C++ 接口和 python 接口是否会保持一致?TensorRT-LLM 安装成本高,今后是否有改进计划?TensorRT-LLM 会和 VLLM 发展角度有不同吗?

A5:我们会尽量提供 c++ runtime 和 python runtime 一致的接口,已经在规划当中。之前团队的重点在提升性能、完善功能上,以后在易用性方面也会不断改善。这里不好直接跟 vllm 的比较,但是 NVIDIA 会持续加大在 TensorRT-LLM 开发、社区和客户支持的投入,为业界提供最好的 LLM 推理方案。

以上就是​揭秘NVIDIA大模型推理框架:TensorRT-LLM的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/428837.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
win7系统自动更新失败怎么办_win7更新无法完成的解决方法
上一篇 2025年11月7日 12:54:02
PHPmyadmin使用教程
下一篇 2025年11月7日 12:54:09

相关推荐

  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • CSS技巧:在复杂悬停效果中确保图像始终可见

    CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见

    本教程探讨如何在包含悬停效果的CSS卡片布局中,确保图像始终显示在最顶层而不被裁剪或遮挡。通过调整HTML结构,利用CSS的position和z-index属性,以及引入pointer-events,我们将解决图像被overflow: hidden和扩展叠加层遮盖的问题,实现复杂的视觉交互效果。 在…

    2026年5月10日 用户投稿
    000
  • python如何捕获所有类型的异常_python try except捕获所有异常的方法

    答案:捕获所有异常推荐使用except Exception as e,可捕获常规错误并记录日志,避免影响程序正常退出;需拦截系统信号时才用except BaseException as e。 在Python中,要捕获所有类型的异常,最常见且推荐的方法是使用 except Exception as e…

    2026年5月10日
    000
  • Angular mat-tab 高度自适应与布局优化指南

    本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源,并提供使用CSS深度选择器(::ng-deep)精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案,确保组件在指定布局下…

    2026年5月10日
    000
  • html自定义滚动条代码怎么写_html自定义滚动条代码编写指南

    html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南

    自定义HTML滚动条可通过CSS的::-webkit-scrollbar伪元素实现,适用于Webkit内核浏览器;首先设置整体滚动条宽高,再定义轨道、滑块样式及悬停效果,可针对特定容器应用;为提升兼容性,Firefox可使用scrollbar-width和scrollbar-color属性适配,IE…

    2026年5月10日 用户投稿
    000
  • CSS Grid 实现表格列等宽布局

    本文旨在提供一种无需指定表格总宽度和各列宽度,即可实现表格列等宽布局的方案。通过利用 CSS Grid 布局的特性,可以使每列的宽度自动适应内容,并保持所有列的宽度一致,从而避免使用 JavaScript 动态计算和设置列宽,实现更简洁高效的布局方式。 在传统的 HTML 表格中,实现列等宽布局通常…

    2026年5月10日
    000
  • Flexbox布局中带标签文本域的重叠问题及解决方案

    本文探讨了在使用css flexbox布局和spectre.css框架时,为文本域添加标签可能导致内容重叠的问题。核心原因在于父容器固定高度与子元素`height: 100%`的冲突,导致文本域未能正确计算标签所占空间。解决方案是移除父容器的固定高度,并为文本域设置响应式的视口高度(`vh`)值,确…

    2026年5月10日
    300
  • 创建自动轮播图:JavaScript 实现指南

    创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南

    本文旨在帮助开发者构建一个自动轮播图,解决手动切换和自动播放的问题。我们将提供完整的 HTML、CSS 和 JavaScript 代码示例,并详细解释实现原理,确保即使是 JavaScript 新手也能轻松掌握。重点在于理解 JavaScript 如何控制轮播图的自动切换和手动控制逻辑,以及如何优化…

    2026年5月10日 用户投稿
    000
  • HTML文本排版常见问题有哪些_HTML文本排版常见问题如何快速排查与解决

    空白符处理不当导致格式丢失,可用标签或CSS的white-space属性解决;2. 段落间距不一致需重置margin并使用CSS Reset;3. 字体异常应检查font-family备选和@font-face加载;4. 文本溢出需设置word-wrap、text-overflow等控制换行与截断。…

    2026年5月10日
    000
  • 如何解决鼠标悬浮时背景图标被背景颜色遮挡的问题?

    巧妙解决鼠标悬停时图标被遮挡的问题 网站或应用中,鼠标悬停效果能提升用户体验。然而,有时悬停时背景图标会被新的背景颜色遮盖。本文通过案例分析,讲解如何解决此问题。 问题描述 一个搜索框,右侧图标在鼠标悬停时背景颜色改变,但图标却被新背景色遮挡: 相关CSS代码: .tx_mmenu_together…

    用户投稿 2026年5月10日
    000
  • 使用 CSS 实现图片悬停文字提示

    使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示

    本教程详细介绍了如何使用 html 的 ` ` 和 “ 元素结合 css 实现图片悬停显示文本的交互效果。通过巧妙运用 css 动画和变换属性,当用户鼠标悬停在图片上时,图片会缩小、模糊,同时预设的文本内容平滑地淡入显示,从而提升用户界面的动态性和信息提示的友好性。 引言:图片悬停效果的重要性 在…

    2026年5月10日 用户投稿
    200
  • 解决cuDF与Numba在Docker环境中的NVVM缺失错误

    本文旨在解决在docker容器中使用cudf时,由于numba依赖cuda工具包中的nvvm组件缺失而导致的`filenotfounderror`。核心问题在于选择了精简的cuda `runtime`镜像,该镜像不包含numba进行jit编译所需的开发工具。解决方案是切换到包含完整开发工具的cuda…

    2026年5月10日
    000
  • CSS中如何使用”…”结尾省略溢出内容?

    css如何处理溢出内容:使用”…”作为结尾 当文本内容超出了容器限制时,需要进行处理以保证内容的正确显示。css提供了多种方法来处理溢出内容,其中一种就是使用 “…” 作为结尾来进行文本省略。 针对给定的html代码,我们需要对…

    2026年5月10日
    000
  • 行内块元素设置 overflow: hidden 后为什么会错位?

    行内块元素错位显示原因解析 在设置了 overflow: hidden 属性后,两个 inline-block 元素可能会出现错位显示。这是因为 overflow: hidden 影响了行内块元素的基线位置。 在行内块布局中,元素的基线与排版框的底部对齐。当一个行内块元素设置 overflow: h…

    2026年5月10日
    000
  • PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式,难以应对变种攻击;而机器学习通过分析代码的词法、句法、语义和数据流特征,构建抽象的行为模型,可识别未见过但模式相似的恶意代码。例如,即便攻击者使用编码或混淆技术,只要其数据流向敏感函数(如eval、system)的行为…

    2026年5月10日 用户投稿
    000
  • PHP框架的社区支持存在哪些痛点?

    php框架社区支持的痛点包括:文档匮乏或过时(1)、响应缓慢(2)、社区分散(3)。实战案例表明这些痛点可能导致开发进度受阻。改善方法包括:提供全面的文档、建立响应迅速的官方论坛、创建一个集成的社区平台。 PHP 框架社区支持存在的痛点及实战案例 PHP 框架为 Web 开发提供了强大的基础,但其社…

    2026年5月10日
    100
  • HTML文本溢出DIV容器如何判断及处理?

    巧妙应对html文本溢出div容器 在HTML页面中,肉眼很难直接判断文本是否溢出了DIV容器。本文将介绍使用JavaScript和CSS两种方法来检测并处理这种情况,提升用户体验。 JavaScript检测方法 利用JavaScript的scrollHeight和offsetHeight属性,我们…

    2026年5月10日
    100
  • html如何固定_固定HTML元素位置使其不随滚动移动【滚动】

    要使HTML元素始终固定在视口指定位置,应使用position: fixed;若需滚动至阈值后固定则用position: sticky;兼容旧浏览器可用JavaScript动态设置top;响应式场景可结合媒体查询调整fixed方位;还需预留空间避免遮挡内容。 如果您希望HTML页面中的某个元素始终保…

    2026年5月10日
    000
  • 如何写js

    JavaScript 是一种用于为网页提供交互性、动画和动态行为的编程语言。它涉及使用变量、运算符和条件,编写函数和对象,设置事件处理程序。最佳实践包括使用命名空间、遵循命名约定、进行错误处理。官方文档、在线课程和社区支持有助于学习 JavaScript 基础。示例代码展示了变量定义、条件分支、函数…

    2026年5月10日
    000
  • 解决CSS按钮滑动背景覆盖文本问题:确保::after伪元素与文本层级

    本文详细介绍了在使用css `::after` 伪元素为按钮创建滑动背景效果时,文本被背景覆盖的常见问题及其解决方案。核心方法是通过在按钮内部包裹文本,并为该文本元素设置 `position: relative` 和 `z-index: 1`,从而确保文本始终显示在动态背景之上,实现预期的视觉效果。…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信