深入探讨模型、数据和框架：一份详尽的54页高效大语言模型综述

程序猿 • 2025年11月7日 18:53:32 • 用户投稿 • 阅读 1

大规模语言模型（LLMs）在许多重要任务中展现出了引人注目的能力，包括自然语言理解、语言生成和复杂推理，并对社会产生了深远的影响。然而，这些出色的能力却需要大量的训练资源（如左图所示）和较长的推理时间（如右图所示）。因此，研究人员需要开发有效的技术手段来解决它们的效率问题。

此外，从图的右侧还可以看出，一些高效的LLMs（Language Models）如Mistral-7B，已经成功应用于LLMs的设计和部署中。这些高效的LLMs在保持与LLaMA1-33B相近的准确性的同时，能够大大减少推理内存使用和降低推理时延。这表明已经有一些可行的高效方法成功地应用于LLMs的设计和使用上。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在本综述中，来自俄亥俄州立大学、帝国理工学院、密歇根州立大学、密西根大学、亚马逊、谷歌、Boson AI、微软亚研院的研究者提供了对高效 LLMs 研究的系统全面调查。他们将现有优化 LLMs 效率的技术分成了三个类别，包括以模型为中心、以数据为中心和以框架为中心，总结并讨论了当下最前沿的相关技术。

论文：https://arxiv.org/abs/2312.03863GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

为了方便整理综述中所涉及的论文，并保持更新，研究者创建了一个 GitHub 仓库，并积极维护。他们希望这个仓库能够帮助研究人员和从业者系统地了解高效 LLMs 的研究和发展，并激发他们为这个重要而令人兴奋的领域做出贡献。

仓库的网址是https://github.com/aiot-mlsys-lab/efficient-llms-survey。在这个仓库中，你可以找到关于高效低功耗机器学习系统的调查的相关内容。这个仓库提供了一些研究论文、代码和文档，帮助人们更好地了解和探索高效低功耗的机器学习系统。如果你对这个领域感兴趣，可以通过访问这个仓库来获取更多的信息。

豆包大模型

字节跳动自主研发的一系列大型语言模型

834 查看详情

以模型为中心

以模型为中心的方法关注算法层面和系统层面的高效技术，其中模型本身是焦点。由于 LLMs 具有数十亿甚至数万亿的参数，与规模较小的模型相比，它们具有诸如涌现等独特的特征，因此需要开发新的技术来优化 LLMs 的效率。本文详细讨论了五类以模型为中心的方法，包括模型压缩、高效预训练、高效微调、高效推理和高效模型架构设计。

1. 压缩模型在机器学习领域，模型的大小通常是一个重要的考量因素。大型的模型往往需要更多的存储空间和计算资源，而且在移动设备上运行时可能会遇到限制。因此，压缩模型是一种常用的技术，可以减小模型的大小

模型压缩技术主要分为了四类：量化、参数剪枝、低秩估计和知识蒸馏（参见下图），其中量化会把模型的权重或者激活值从高精度压缩到低精度，参数剪枝会搜索并删除模型权重中较为冗余的部分，低秩估计会将模型的权重矩阵转化为若干低秩小矩阵的乘积，知识蒸馏则是直接用大模型来训练小模型，从而使得小模型在做某些任务的时候具有替代大模型的能力。

2. 高效预训练

预训练 LLMs 的成本非常昂贵。高效预训练旨在提高效率并降低 LLMs 预训练过程的成本。高效预训练又可以分为混合精度加速、模型缩放、初始化技术、优化策略和系统层级的加速。

混合精度加速通过使用低精度权重计算梯度、权重和激活值，然后在将其转换回高精度并应用于更新原始权重，从而提高预训练的效率。模型缩放通过使用小型模型的参数来扩展到大型模型，加速预训练的收敛并降低训练成本。初始化技术通过设计模型的初始化取值来加快模型的收敛速度。优化策略是重在设计轻量的优化器来降低模型训练过程中的内存消耗，系统层级的加速则是通过分布式等技术来从系统层面加速模型的预训练。

3. 高效微调

高效微调旨在提高 LLMs 微调过程的效率。常见的高效微调技术分为了两类，一类是基于参数高效的微调，一类是基于内存高效的微调。

基于参数高效微调（PEFT）的目标是通过冻结整个 LLM 主干，仅更新一小组额外的参数，将 LLM 调整到下游任务。在论文中，我们又将 PEFT 详细分成了基于适配器的微调、低秩适配、前缀微调和提示词微调。

基于内存的高效微调则是重在降低整个 LLM 微调过程中的内存消耗，比如减少优化器状态和激活值等消耗的内存。

4. 高效推理

高效推理旨在提高 LLMs 推理过程的效率。研究者将常见的高效推理技术分成了两大类，一类是算法层级的推理加速，一类是系统层级的推理加速。

算法层级的推理加速又可以分成两类：投机解码和 KV – 缓存优化。投机解码通过使用较小的草稿模型并行计算令牌，为较大目标模型创建猜测性前缀，从而以加速采样过程。KV – 缓存优化指的是优化在 LLMs 推理过程中 Key-Value（KV）对的重复计算。

系统层级的推理加速则是在指定硬件上优化内存访问次数，增大算法并行量等来加速 LLM 的推理。

5. 高效模型架构设计

对 LLMs 进行高效架构设计是指通过策略性优化模型结构和计算过程，以提高性能和可扩展性，同时最小化资源消耗。我们将高效的模型架构设计依据模型的种类分成了四大类：高效注意力模块、混合专家模型、长文本大模型以及可替代 transformer 的架构。

高效注意力模块旨在优化注意力模块中的复杂计算及内存占用，混合专家模型（MoE）则是通过将 LLMs 的某些模块的推理决策使用多个小的专家模型来替代从而达到整体的稀疏化，长文本大模型是专门设计来高效处理超长文本的 LLMs, 可替代 transformer 的架构则是通过重新设计模型架构，来降低模型的复杂度并达到后 transformer 架构相当的推理能力。

以数据为中心

以数据为中心方法侧重于数据的质量和结构在提高 LLMs 效率方面的作用。研究者在本文中详细讨论了两类以数据为中心的方法，包括数据选择和提示词工程。

1. 数据选择

LLMs 的数据选择旨在对预训练 / 微调数据进行清洗和选择，例如去除冗余和无效数据，达到加快训练过程的目的。

2. 提示词工程

提示词工程通过设计有效的输入（提示词）来引导 LLMs 生成期望的输出，它的高效之处在于可以通过设计提示词，来达到和经过将繁琐的微调相当的模型表现。研究者将常见的的提示词工程技术分成了三大类：少样本的提示词工程、提示词压缩和提示词生成。

少样本的提示词工程通过向 LLM 提供有限的示例集以引导其对需要执行的任务进行理解。提示词压缩是通过压缩冗长的提示输入或学习和使用提示表示，加速 LLMs 对输入的处理。提示词生成旨在自动创建有效的提示，引导模型生成具体且相关的响应，而不是使用手动标注的数据。

以框架为中心

研究者调查了近来较为流行的高效 LLMs 框架，并列举了它们所能优化的高效任务，包括预训练、微调和推理（如下图所示）。

总结

在这份调查中，研究者为大家提供了一份关于高效 LLMs 的系统性回顾，这是一个致力于使 LLMs 更加民主化的重要研究领域。他们一开始就解释了为什么需要高效 LLMs。在一个有序的框架下，本文分别从以模型的中心、以数据的中心和以框架为中心的角度分别调查了 LLMs 的算法层面和系统层面的高效技术。

研究者相信，在 LLMs 和以 LLMs 为导向的系统中，效率将发挥越来越重要的作用。他们希望这份调查能够帮助研究人员和实践者迅速进入这一领域，并成为激发新的高效 LLMs 研究的催化剂。

以上就是深入探讨模型、数据和框架：一份详尽的54页高效大语言模型综述的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/441586.html

ai llama 研究调查

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Oracle捕获问题SQL解决CPU过渡消耗

上一篇 2025年11月7日 18:53:31

win11关机关不掉怎么办解决方法步骤演示

下一篇 2025年11月7日 18:53:32

用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000
用户投稿

JavaScript 动态菜单点击高亮效果实现教程

本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理，当用户点击菜单项时，被点击项会高亮显示（绿色），同时其他菜单项恢复默认样式（白色）。这种方法避免了不必要的DOM操作，提高了性能和代码可维护性，确保了无论点击方向如何，功能都能稳定运行。动态菜单高亮…

程序猿
2026年5月10日
2000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000
用户投稿

JavaScript函数中插入加载动画（Spinner）的正确方法

本文旨在解决在JavaScript函数中插入加载动画（Spinner）时遇到的异步问题。通过引入async/await和Promise.all，确保在数据处理完成前后正确显示和隐藏加载动画，提升用户体验。我们将提供两种实现方案，并详细解释其原理和优势。在Web开发中，当执行耗时操作时，显示加载动画…

程序猿
2026年5月10日
0000
用户投稿

使用 Pydantic v2 实现条件性必填字段

本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器，可以根据模型中其他字段的值来动态地控制某些字段是否为必填项，从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例，展示了如何确保模型中至少有一个字段被赋值。在 Pydantic v2 中，虽然没有…

程序猿
2026年5月10日
0000
三星不再独享，消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

6 月 15 日消息，据博主@肥威今日爆料，搭载骁龙 8 Gen 3 领先版%ign%ignore_a_1%re_a_1%的新机即将发布，把之前的 for Galaxy 改成“for Everybody”。 Pic Copilot AI时代的顶级电商设计师，轻松打造爆款产品图片 158 查看详情 …

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

动态更新圆形进度条：JavaScript成绩计算器集成指南

本文档旨在指导开发者如何将JavaScript成绩计算系统与动态圆形进度条集成，实现可视化展示平均成绩。我们将详细讲解如何修改现有的JavaScript代码，使其在计算出平均分后，能够动态更新圆形进度条的进度，从而提供更直观的用户体验。本文档包含详细的代码示例和注意事项，帮助开发者轻松实现这一功能。…

程序猿
2026年5月10日
0000