用BigDL-LLM 即刻加速百亿级参数LLM推理

程序猿 • 2025年11月8日 21:04:18 • 科技 • 阅读 0

我们正迈入一个由大语言模型（Large Language Model, LLM）驱动的 AI 新时代，LLM在诸如客户服务、虚拟助理、内容创作、编程辅助等各类应用中正发挥着越来越重要的作用。

然而，随着 LLM 规模不断扩大，运行大模型所需的资源消耗也越来越大，导致其运行也越来越慢，这给 AI 应用开发者带来了相当大的挑战。

为此，英特尔最近推出了一个名为BigDL-LLM[1]的大模型开源库，可助力 AI 开发者和研究者在英特尔® 平台上加速优化大语言模型，提升大语言模型在英特尔® 平台上的使用体验。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

下面就展示了使用 BigDL-LLM 加速过的 330 亿参数的大语言模型 Vicuna-33b-v1.3[2]在一台搭载英特尔® 至强® 铂金 8468 处理器的服务器上运行的实时效果。

△在一台搭载英特尔® 至强® 铂金 8468 处理器的服务器上运行 330 亿参数大语言模型的实际速度（实时录屏）

BigDL-LLM：英特尔® 平台上的开源大语言模型加速库

BigDL-LLM 是一个专注于优化和加速大型语言模型的开源库，它是 BigDL 的一部分，并遵循 Apache 2.0 许可证发布

它提供了各种低精度优化（例如 INT4/INT5/INT8），并可利用多种英特尔® CPU集成的硬件加速技术（AVX/VNNI/AMX 等）和最新的软件优化，来赋能大语言模型在英特尔® 平台上实现更高效的优化和更为快速的运行。

BigDL-LLM 的一大重要特性是：对基于 Hugging Face Transformers API 的模型，只需改动一行代码即可对模型进行加速，理论上可以支持运行任何 Transformers 模型，这对熟悉 Transformers API 的开发者非常友好。

除了 Transformers API，很多人也会使用 LangChain 来开发大语言模型应用。

为此，BigDL-LLM 也提供便于使用的 LangChain 的集成[3]，从而让开发者能够轻松使用 BigDL-LLM 来开发新应用或迁移现有的、基于 Transformers API 或 LangChain API 的应用。

此外，对于一般的 PyTorch 大语言模型（没有使用 Transformer 或 LangChain API 的模型），也可使用 BigDL-LLM optimize_model API 一键加速来提升性能。详情请参阅 GitHub README[4]以及官方文档[5]。

BigDL-LLM 还提供了大量常用开源 LLM的加速样例（e.g. 使用 Transformers API 的样例[6]和使用 LangChain API 的样例[7]，以及教程（包括配套 jupyter notebooks）[8] ，方便开发者快速上手尝试。

安装和使用：简便的安装过程和易用的 API 接口

安装 BigDL-LLM 非常方便，只需执行以下命令即可：

pip install --pre --upgrade bigdl-llm[all]

△若代码显示不全，请左右滑动

使用 BigDL-LLM对大模型进行加速也是非常容易的（这里仅用 Transformers 风格 API 进行举例）。

使用 BigDL-LLM Transformer 风格 API 对模型加速，只需要改动模型加载部分，后续使用过程与原生 Transformers 完全一致。

而用 BigDL-LLM API 加载模型的方式与 Transformers API 也几乎一致——用户只需要更改 import，在 from_pretrained 参数中设置 load_in_4bit=True 即可。

BigDL-LLM将在模型加载过程中进行4位低精度量化，并在后续的推理过程中利用各种软硬件加速技术进行优化

#Load Hugging Face Transformers model with INT4 optimizationsfrom bigdl.llm. transformers import AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained('/path/to/model/', load_in_4bit=True)

△若代码显示不全，请左右滑动

示例：快速实现一个基于大语言模型的语音助手应用

下文将以 LLM 常见应用场景“语音助手”为例，展示采用 BigDL-LLM 快速实现 LLM 应用的案例。通常情况下，语音助手应用的工作流程分为以下两个部分：

△图 1. 语音助手工作流程示意

语音识别——使用语音识别模型（本示例采用了 Whisper 模型[9] ）将用户的语音转换为文本；文本生成——将 1 中输出的文本作为提示语 (prompt)，使用一个大语言模型（本示例采用了 Llama2[10] ）生成回复。

以下是本文使用 BigDL-LLM 和 LangChain[11] 来搭建语音助手应用的过程：

在语音识别阶段：第一步，加载预处理器 processor 和语音识别模型 recog_model。本示例中使用的识别模型 Whisper 是一个 Transformers 模型。

只需使用 BigDL-LLM 中的 AutoModelForSpeechSeq2Seq 并设置参数 load_in_4bit=True，就能够以 INT4 精度加载并加速这一模型，从而显著缩短模型推理用时。

#processor = WhisperProcessor .from_pretrained(recog_model_path)recog_model = AutoModelForSpeechSeq2Seq .from_pretrained(recog_model_path, load_in_4bit=True)

△若代码显示不全，请左右滑动

第二步，进行语音识别。首先使用处理器从输入语音中提取输入特征，然后使用识别模型预测 token，并再次使用处理器将 token 解码为自然语言文本。

input_features = processor(frame_data,sampling_rate=audio.sample_rate,return_tensor=“pt”).input_featurespredicted_ids = recogn_model.generate(input_features, forced_decoder_ids=forced_decoder_ids)text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

△若代码显示不全，请左右滑动

在文本生成阶段，首先使用 BigDL-LLM 的 TransformersLLM API 创建一个 LangChain 语言模型（TransformersLLM 是在 BigDL-LLM 中定义的语言链 LLM 集成）。

可以使用这个 API 来加载 Hugging Face Transformers 的任何模型

llm = TransformersLLM . from_model_id(model_id=llm_model_path,model_kwargs={"temperature": 0, "max_length": args.max_length, "trust_remote_code": True},)

△若代码显示不全，请左右滑动

然后，创建一个正常的对话链 LLMChain，并将已经创建的 llm 设置为输入参数。

# The following code is complete the same as the use-casevoiceassistant_chain = LLMChain(llm=llm, prompt=prompt,verbose=True,memory=ConversationBufferWindowMemory(k=2),)

△若代码显示不全，请左右滑动

以下代码将使用一个链条来记录所有对话历史，并将其适当地格式化为大型语言模型的输入。这样，我们可以生成合适的回复。只需将识别模型生成的文本作为 “human_input” 输入即可。代码如下：

response_text = voiceassistant_chain .predict(human_input=text, stop=”nn”)

△若代码显示不全，请左右滑动

最后，将语音识别和文本生成步骤放入循环中，即可在多轮对话中与该“语音助手”交谈。您可访问底部 [12] 链接，查看完整的示例代码，并使用自己的电脑进行尝试。快用 BigDL-LLM 来快速搭建自己的语音助手吧！

作者简介

黄晟盛是英特尔公司的资深架构师，黄凯是英特尔公司的AI框架工程师，戴金权是英特尔院士、大数据技术全球CTO和BigDL项目的创始人，他们都从事着与大数据和AI相关的工作

以上就是用BigDL-LLM 即刻加速百亿级参数LLM推理的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/502613.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

人工智能与软件开发的未来

上一篇 2025年11月8日 20:59:28

什么是可解释的人工智能？

下一篇 2025年11月8日 21:04:45

好文分享

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
2000
好文分享

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
0000
好文分享

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
0000
好文分享

动态生成HTML表格：优化JavaScript数据展示与导出

本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想，我们将数据与视图逻辑分离，首先将表格内容组织为JavaScript对象数组，然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

程序猿
2025年12月23日
0000
好文分享

HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能：1. 语义化标签优化渲染效率；2. Web Storage减少网络请求；3. Canvas/SVG降低资源加载量；4. Service Worker实现离线缓存；5. 原…

程序猿
2025年12月23日
0000
好文分享

利用UTM参数与GTM优化链接点击来源追踪

本文详细阐述了如何通过UTM参数精准追踪营销链接的点击来源，并深入探讨了Google Tag Manager (GTM) 在此过程中的高级应用。文章首先介绍了UTM参数的构成、生成方法及其在Google Analytics中的自动解析机制，强调其在识别流量来源方面的核心作用。随后，探讨了GTM如何通…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
0000
好文分享

如何通过HTML在线展示数据_HTML在线数据展示实现与可视化方案

网页展示数据需结合HTML、CSS与JavaScript，首选table展示结构化数据，配合Chart.js等库实现可视化图表，通过fetch加载远程JSON动态渲染内容，并利用响应式设计与交互优化提升用户体验。在网页中展示数据，核心是将结构化信息清晰、直观地呈现给用户。HTML本身是内容载体，结…

程序猿
2025年12月23日
0000
好文分享

html在线几何图形绘制 html在线SVG应用实战教程

使用HTML与SVG结合可高效绘制几何图形。SVG基于XML，支持圆形、矩形、多边形、路径等，在任意分辨率下清晰。1. 基础元素包括rect、circle、ellipse、line、polygon、polyline和path。2. 实战示例：用polygon绘制三角形，path绘制五角星和弧线仪表盘…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

单页应用（SPA）中特定分类数据的API直链访问与性能考量

针对单页应用（SPA），本文探讨了如何通过URL直接访问特定分类数据，而非依赖客户端UI交互。文章揭示了SPA在初始加载时已获取所有数据，因此客户端分类选择对数据加载量无影响。核心策略是绕过前端界面，直接调用后端API获取所需数据，从而实现高效且精准的数据访问，并提供了具体API示例。理解单页应用…

程序猿
2025年12月23日
1000
好文分享

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
好文分享

jQuery循环中动态表格数据访问与比较教程

本文详细介绍了在jQuery循环中处理动态生成表格数据时常见的挑战与解决方案。我们将探讨如何正确使用.find()代替.children()来定位嵌套元素，解决.data()方法返回数字类型导致比较错误的问题，并提供一个基于事件监听的实用示例，以实现对用户修改数据的实时检测和保存。动态表格数据处理…

程序猿
2025年12月22日
0000
好文分享

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
好文分享

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
0000
揭秘canvas技术在数据可视化中的独特威力

发现Canvas技术在数据可视化中的独特作用随着数据时代的到来，数据可视化成为了一种重要的方式来呈现大量的数据。在数据可视化中，Canvas技术以其独特的优势在各个领域展示了巨大的潜力。本文将着重介绍Canvas技术在数据可视化中的独特作用，并给出具体的代码示例。 Canvas是HTML5中的一个…

程序猿
好文分享 2025年12月21日
0000
好文分享

使用localstorage存储数据所需的包有哪些？

localstorage是HTML5中的一项重要技术，它可以用来在客户端本地存储数据。在使用localstorage存储数据之前，我们需要确保在代码中引入合适的包来操作这个功能。在使用localstorage之前，我们需要在HTML文件中添加以下代码来引入localstorage的相关包：在以上…

程序猿
2025年12月21日
0000
好文分享

无法将数据保存到localstorage，为什么？

为什么我的数据无法保存到localstorage中？本文将详细讨论为何在某些情况下，数据无法保存到本地存储(localstorage)中。同时，我将提供一些具体的代码示例以帮助您解决这个问题。首先，让我们来了解一下什么是localstorage。localstorage是HTML5中引入的一种W…

程序猿
2025年12月21日
0000
好文分享

如何将HTML表单数据作为文本并发送到html2pdf？

html2pdf 是一个 JavaScript 包，允许开发人员将 html 转换为 canvas、pdf、图像等。它将 html 作为参数并将其添加到 pdf 或所需文档中。此外，它还允许用户在添加 html 内容后下载该文档。在这里，我们将访问表单并使用html2pdf npm包将其添加到pd…

程序猿
2025年12月21日
0000
HTML中如何用post提交数据

http/1.1 协议规定的 http 请求方法有 options、get、head、post、put、delete、trace、connect 这几种。其中 post 一般用来向服务端提交数据，本文主要讨论 post 提交数据的几种方式 http/1.1 协议规定的 http 请求方法有 opti…

程序猿
好文分享 2025年12月21日
0000