pytorch

  • 【大模型学习】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm

    前言 ✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结llama、qwen、deepseek这些模型架构的时候发现,在 attention、位置编码、ffn 与归一化 上,其实已经悄悄从经典 transforme…

    2025年12月1日 科技
    000
  • 深入解析 PyPTO Operator:以 DeepSeek‑V3.2‑Exp 模型为例的实战指南

    前言 在如今的大模型部署世界里,大家讨论得最多的往往是模型本身:参数规模、上下文长度、推理速度、吞吐表现……但只要真正踩过一次从“模型参数”到“实际落地推理服务”的坑,很快就能意识到,决定性能上限的其实并不是模型本身,而是躲在系统底层的那一层算子实现。尤其是在像 deepseek-v3.2-exp …

    2025年12月1日 科技
    000
  • 机器学习 | PyTorch简明教程上篇

    前面几篇文章介绍了特征归一化和张量,接下来开始写两篇pytorch简明教程,主要介绍pytorch简单实践。 1、四则运算 import torcha = torch.tensor([2, 3, 4])b = torch.tensor([3, 4, 5])print(“a + b: “, (a + …

    2025年12月1日 科技
    000
  • 飞桨AIStudio如何创建项目_飞桨AIStudio项目创建步骤

    首先登录AIStudio账户,访问官网并登录百度账号;进入“我的项目”后点击“创建项目”;填写项目名称、简介及可见性;选择框架版本与运行环境,配置CPU或GPU资源及存储空间;可选空项目或模板初始化;最后确认信息并创建,系统跳转至工作台验证文件结构与环境状态即可开始开发。 ☞☞☞AI 智能聊天, 问…

    2025年11月29日 科技
    000
  • PyTorch中获取中间张量梯度的实用指南

    在PyTorch中,直接通过模块的后向钩子(backward hooks)获取非叶子节点(中间张量)的梯度并非其设计初衷。本文将详细阐述一种有效的方法:通过调用retain_grad()方法并存储中间张量的引用,从而在反向传播后成功访问这些中间梯度,这对于深度学习模型的调试和理解至关重要。 理解Py…

    2025年11月29日 后端开发
    000
  • PEFT LoRA适配器与基础模型合并的专业指南

    本教程详细阐述如何将PEFT LoRA适配器与基础模型正确合并,生成一个完整的、可部署的新模型。文章纠正了常见的错误方法,重点介绍了peft库中merge_and_unload功能的正确使用,并强调了单独处理分词器以及解决潜在PEFT版本兼容性问题的重要性,确保模型合并过程的顺利进行。 1. 理解P…

    2025年11月29日 后端开发
    000
  • PEFT LoRA适配器与基础模型的高效合并策略

    本教程详细介绍了如何将PEFT LoRA适配器与基础模型高效合并,生成一个完全独立的模型。文章指出直接使用transformers.AutoModel加载适配器并手动合并权重是错误的,并提供了使用peft库中merge_and_unload方法的正确流程。此外,教程还强调了处理分词器的重要性,并讨论…

    2025年11月29日 后端开发
    000
  • PEFT LoRA适配器与基础模型高效合并指南

    本文详细介绍了如何使用Hugging Face的peft库将PEFT LoRA适配器模型与基础模型进行高效且正确地合并,生成一个完全新的、独立的预训练模型。教程涵盖了从加载适配器、执行合并到保存最终模型及处理分词器的完整流程,并提供了避免常见错误和解决版本兼容性问题的专业指导。 PEFT LoRA适…

    2025年11月29日 后端开发
    000
  • 如何将PEFT LoRA适配器与基础模型合并以创建独立模型

    本文详细介绍了如何使用Hugging Face peft库的merge_and_unload功能,将PEFT LoRA适配器高效且正确地与基础模型合并,生成一个全新的、独立的预训练模型。文章纠正了直接加载适配器或手动合并权重的常见误区,并提供了完整的代码示例、模型保存指南以及处理分词器和peft版本…

    2025年11月29日 后端开发
    000
  • PyTorch中获取中间张量梯度值的实用指南

    本文旨在解决PyTorch反向传播过程中获取非叶子节点(中间张量)梯度的问题。传统的register_backward_hook主要用于模块参数,对中间张量无效。我们将介绍一种通过retain_grad()方法结合张量引用存储来有效捕获并打印这些中间梯度的方法,并提供详细的代码示例与注意事项,帮助开…

    2025年11月29日 后端开发
    000
关注微信