用BigDL-LLM 即刻加速百亿级参数LLM推理

我们正迈入一个由大语言模型(Large Language Model, LLM)驱动的 AI 新时代,LLM在诸如客户服务、虚拟助理、内容创作、编程辅助等各类应用中正发挥着越来越重要的作用。

然而,随着 LLM 规模不断扩大,运行大模型所需的资源消耗也越来越大,导致其运行也越来越慢,这给 AI 应用开发者带来了相当大的挑战。

为此,英特尔最近推出了一个名为BigDL-LLM[1]的大模型开源库,可助力 AI 开发者和研究者在英特尔® 平台上加速优化大语言模型,提升大语言模型在英特尔® 平台上的使用体验。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用BigDL-LLM 即刻加速百亿级参数LLM推理

下面就展示了使用 BigDL-LLM 加速过的 330 亿参数的大语言模型 Vicuna-33b-v1.3[2]在一台搭载英特尔® 至强® 铂金 8468 处理器的服务器上运行的实时效果。

用BigDL-LLM 即刻加速百亿级参数LLM推理

△在一台搭载英特尔® 至强® 铂金 8468 处理器的服务器上运行 330 亿参数大语言模型的实际速度(实时录屏)

BigDL-LLM:英特尔® 平台上的开源大语言模型加速库

BigDL-LLM 是一个专注于优化和加速大型语言模型的开源库,它是 BigDL 的一部分,并遵循 Apache 2.0 许可证发布

它提供了各种低精度优化(例如 INT4/INT5/INT8),并可利用多种英特尔® CPU集成的硬件加速技术(AVX/VNNI/AMX 等)和最新的软件优化,来赋能大语言模型在英特尔® 平台上实现更高效的优化和更为快速的运行。

BigDL-LLM 的一大重要特性是:对基于 Hugging Face Transformers API 的模型,只需改动一行代码即可对模型进行加速,理论上可以支持运行任何 Transformers 模型,这对熟悉 Transformers API 的开发者非常友好。

除了 Transformers API,很多人也会使用 LangChain 来开发大语言模型应用。

为此,BigDL-LLM 也提供便于使用的 LangChain 的集成[3],从而让开发者能够轻松使用 BigDL-LLM 来开发新应用或迁移现有的、基于 Transformers API 或 LangChain API 的应用。

此外,对于一般的 PyTorch 大语言模型(没有使用 Transformer 或 LangChain API 的模型),也可使用 BigDL-LLM optimize_model API 一键加速来提升性能。详情请参阅 GitHub README[4]以及官方文档[5]。

BigDL-LLM 还提供了大量常用开源 LLM的加速样例(e.g. 使用 Transformers API 的样例[6]和使用 LangChain API 的样例[7],以及教程(包括配套 jupyter notebooks)[8] ,方便开发者快速上手尝试。

安装和使用:简便的安装过程和易用的 API 接口

安装 BigDL-LLM 非常方便,只需执行以下命令即可:

pip install --pre --upgrade bigdl-llm[all]

若代码显示不全,请左右滑动

使用 BigDL-LLM对大模型进行加速也是非常容易的(这里仅用 Transformers 风格 API 进行举例)。

使用 BigDL-LLM Transformer 风格 API 对模型加速,只需要改动模型加载部分,后续使用过程与原生 Transformers 完全一致。

而用 BigDL-LLM API 加载模型的方式与 Transformers API 也几乎一致——用户只需要更改 import,在 from_pretrained 参数中设置 load_in_4bit=True 即可。

BigDL-LLM将在模型加载过程中进行4位低精度量化,并在后续的推理过程中利用各种软硬件加速技术进行优化

#Load Hugging Face Transformers model with INT4 optimizationsfrom bigdl.llm. transformers import AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained('/path/to/model/', load_in_4bit=True)

若代码显示不全,请左右滑动

示例:快速实现一个基于大语言模型的语音助手应用

下文将以 LLM 常见应用场景“语音助手”为例,展示采用 BigDL-LLM 快速实现 LLM 应用的案例。通常情况下,语音助手应用的工作流程分为以下两个部分:

用BigDL-LLM 即刻加速百亿级参数LLM推理

△图 1. 语音助手工作流程示意

语音识别——使用语音识别模型(本示例采用了 Whisper 模型[9] )将用户的语音转换为文本;文本生成——将 1 中输出的文本作为提示语 (prompt),使用一个大语言模型(本示例采用了 Llama2[10] )生成回复。

以下是本文使用 BigDL-LLM 和 LangChain[11] 来搭建语音助手应用的过程:

语音识别阶段:第一步,加载预处理器 processor 和语音识别模型 recog_model。本示例中使用的识别模型 Whisper 是一个 Transformers 模型。

只需使用 BigDL-LLM 中的 AutoModelForSpeechSeq2Seq 并设置参数 load_in_4bit=True,就能够以 INT4 精度加载并加速这一模型,从而显著缩短模型推理用时。

#processor = WhisperProcessor .from_pretrained(recog_model_path)recog_model = AutoModelForSpeechSeq2Seq .from_pretrained(recog_model_path, load_in_4bit=True)

若代码显示不全,请左右滑动

第二步,进行语音识别。首先使用处理器从输入语音中提取输入特征,然后使用识别模型预测 token,并再次使用处理器将 token 解码为自然语言文本。

input_features = processor(frame_data,sampling_rate=audio.sample_rate,return_tensor=“pt”).input_featurespredicted_ids = recogn_model.generate(input_features, forced_decoder_ids=forced_decoder_ids)text = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]

若代码显示不全,请左右滑动

文本生成阶段,首先使用 BigDL-LLM 的 TransformersLLM API 创建一个 LangChain 语言模型(TransformersLLM 是在 BigDL-LLM 中定义的语言链 LLM 集成)。

可以使用这个 API 来加载 Hugging Face Transformers 的任何模型

llm = TransformersLLM . from_model_id(model_id=llm_model_path,model_kwargs={"temperature": 0, "max_length": args.max_length, "trust_remote_code": True},)

若代码显示不全,请左右滑动

然后,创建一个正常的对话链 LLMChain,并将已经创建的 llm 设置为输入参数。

# The following code is complete the same as the use-casevoiceassistant_chain = LLMChain(llm=llm, prompt=prompt,verbose=True,memory=ConversationBufferWindowMemory(k=2),)

若代码显示不全,请左右滑动

以下代码将使用一个链条来记录所有对话历史,并将其适当地格式化为大型语言模型的输入。这样,我们可以生成合适的回复。只需将识别模型生成的文本作为 “human_input” 输入即可。代码如下:

response_text = voiceassistant_chain .predict(human_input=text, stop=”nn”)

若代码显示不全,请左右滑动

最后,将语音识别和文本生成步骤放入循环中,即可在多轮对话中与该“语音助手”交谈。您可访问底部 [12] 链接,查看完整的示例代码,并使用自己的电脑进行尝试。快用 BigDL-LLM 来快速搭建自己的语音助手吧!

作者简介

黄晟盛是英特尔公司的资深架构师,黄凯是英特尔公司的AI框架工程师,戴金权是英特尔院士、大数据技术全球CTO和BigDL项目的创始人,他们都从事着与大数据和AI相关的工作

以上就是用BigDL-LLM 即刻加速百亿级参数LLM推理的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/502613.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 20:59:28
下一篇 2025年11月8日 21:04:45

相关推荐

  • PHP 函数在人工智能技术中的运用

    php 函数在人工智能技术中发挥着重要作用,特别是以下几个方面:机器学习:array_slice() 和 array_map() 用于处理数据集。自然语言处理:preg_match() 和 preg_replace() 用于文本处理。图像处理:imagecreatefromjpeg() 和 imag…

    2025年12月9日
    000
  • PHP 函数并发编程在人工智能中的应用

    PHP 函数并发编程在人工智能中的应用 简介 函数并发编程是一种编程范式,使函数可以在不同的线程中并行执行。在人工智能 (AI) 领域,函数并发可以显著提高处理大量数据和复杂算法的效率。本文将介绍如何使用 PHP 的并发编程特性来优化人工智能应用程序。 PHP 中的函数并发 立即学习“PHP免费学习…

    2025年12月9日
    000
  • PHP函数在人工智能中的应用前景

    php在人工智能中的潜在应用包括:使用preg_match进行字符串模式匹配使用array_intersect查找数组交集开发图像分类模型,如利用tensorflow框架进行训练 PHP函数在人工智能中的应用前景 PHP,作为一种流行的服务器端脚本语言,在人工智能(AI)领域有着巨大的潜力。PHP提…

    2025年12月9日
    000
  • php函数与人工智能结合时的困难及突破口

    PHP 函数与人工智能结合时的困难 将 PHP 函数与人工智能 (AI) 模型相结合时,可能会遇到一些困难,包括: 语言障碍:PHP 是一种面向对象的脚本语言,而 AI 模型通常用其他语言(如 Python 或 C++)编写。这可能会导致语言差异和兼容性问题。数据转换:AI 模型通常需要特定格式的数…

    2025年12月9日
    000
  • 如何用 PHP 访问人工智能模型?

    在 php 中,使用 google cloud platform (gcp) php 客户库访问 ai 模型:安装 php 7.1 及以上版本。设置 google cloud sdk。通过 gcp 控制台启用 ai platform predictions api。使用 composer 安装 ph…

    2025年12月9日
    000
  • 还会有下一个百倍币吗?2025年值得关注的五大新兴加密货币赛道

    1、币安Binance 币安Binance官网入口: 币安BinanceAPP下载链接: 2、欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 3、火币HTX 官网入口: APP下载链接: 在快速变化的加密市场中,识别增长的极限是投资者关注的焦点潜力。新兴的叙述和技术突破往往能催生出新的…

    2025年12月9日
    000
  • MAN币是什么?发行量多少?投资价值分析

    MAN币是Matrix AI Network的原生代币,总发行量10亿枚,用于支付费用。项目融合AI与区块链技术,通过自然语言生成智能合约、AI安全防护和动态DPoS机制提升效率与安全,应用于生物信息、数字艺术等领域,团队具备AI与区块链背景,代币已上线多家交易所,流动性良好。 欧易okx官网入口:…

    2025年12月9日
    000
  • 币安Alpha新项目中的Bluwhale是什么?

    Bluwhale是币安Alpha支持的Web3数据项目,通过AI整合链上链下数据构建用户画像,助力项目方精准触达高潜力用户群体,并实现数据价值回归;其技术涵盖多源数据采集、AI标签生成与API服务输出,已在币安生态中获得潜力验证、生态协同及社区曝光机会。 1、币安Binance 币安Binance官…

    2025年12月9日
    000
  • 什么是Datagram(DGRAM)币?值得投资吗?Datagram工作原理和代币信息介绍

    datagram 正在构建 hyper-fabric depin 平台,利用人工智能连接计算、带宽和存储资源,为实时应用提供高效的去中心化基础设施。 Binance币安 欧易OKX ️ Huobi火币️ 什么是Datagram Network? Datagram Network作为一个超互连网络层 …

    2025年12月9日 好文分享
    000
  • 2025潜力币:掘金未来十大虚拟货币

    在快速变化的数字资产领域,部分项目因其技术创新和生态系统建设而备受关注。本文将探讨十个在2025年值得关注的加密项目。 1、币安Binance 币安Binance官网入口: 币安BinanceAPP下载链接: 2、欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 一、Ethereum (…

    2025年12月9日
    000
  • 狗狗币巅峰预测:2030年前DOGE价格的乐观情景

    关于狗狗币在2030年前的价格走势,市场存在多种乐观预测,部分分析师和技术模型给出了较高的目标位。 一、基于历史周期与技术形态的预测 通过分析过往牛市的技术模式,可以推演出潜在的价格路径。对称三角形突破与斐波那契扩展水平是关键参考指标。 1、观察4小时K线图上的对称三角形是否接近收敛末端,这通常预示…

    2025年12月9日
    000
  • Checkmate(CHECK)币是什么?如何运作?CHECK代币经济与前景分析

    checkmate (check) 是一个去中心化生态系统,旨在将战略思维和竞争文化与 web3 技术相结合。checkmate 引入了“策略型经济”的概念。如今许多数字系统奖励用户注意力和点击率,而 checkmate 则提供了一种奖励人类智慧、创造力和明智决策的模式。该生态系统通过“策略代币”$…

    2025年12月9日 好文分享
    100
  • Datagram Network(DGRAM)币是什么?如何领取?DGRAM代币经济与前景分析

    datagram network是一个基于 avalanche 的主 权layer 1 区块链构建的去中心化通信基础设施和 dapp 平台,兼容多种区块链(例如以太坊、solana 等)。该网络由遍布全球 150 多个国家的数十万个节点支持,旨在克服中心化云基础设施成本高昂、效率低下和垄断等问题。 …

    2025年12月9日 好文分享
    000
  • 以太坊(ETH)现货 ETF 上周净流出创历史第三高 ZEC 合约持仓创新高

    Binance币安 欧易OKX ️ Huobi火币️ 加密市场弱势震荡,ETH ETF 大幅流出、ZEC 活跃度创新高,日本拟下调加密税并强化监管。 11 月 17 日,BTC 仍处于短线偏弱的震荡下行结构,92,976 美元构成短周期重要低点,也是多头的核心防守位置;ETH 仍处在短周期偏弱的震荡…

    2025年12月9日
    000
  • GAIB(GAIB)币是什么?怎么样?GAIB运作方式、代币经济和空投指南

    GAIB 是一个开创性的经济基础架构层,致力于将 GPU 计算能力、人工智能技术与区块链系统深度融合。该项目通过将高性能的人工智能资产——如数据中心、GPU 集群、自动化机器人系统以及能源支持设施——进行代币化处理,把它们的实际运行表现转化为可在链上交易的金融产品。GAIB 代币具备多重功能:可用于…

    2025年12月9日
    000
  • GAIB币是什么?值得投资吗?GAIB项目概述,代币经济与空投领取指南

    gaib 通过将 gpu 及其收益代币化,开创了人工智能经济层的新纪 元,创造了 aid——人工智能领域首个合成稳定币。 Binance币安 欧易OKX ️ Huobi火币️ GAIB币最新动态 币安Alpha(官方注册 官方下载)将于2025年11月19日18:00(东八区时间)上线和开放GAIB…

    2025年12月9日 好文分享
    000
  • 加密货币领域的VC(风险投资)都在关注什么?跟着聪明钱看趋势

    加密领域VC聚焦四大方向:一是DeFi与%ignore_a_1%,青睐合规、高效、跨链且具可持续模型的项目;二是加密AI融合,支持数据可追溯、有真实场景的初创;三是高性能Layer1/Layer2,关注共识机制合理、生态活跃的底层链;四是DePIN,投资解决实际问题、激励明确、绿色可持续的链下硬件网…

    2025年12月9日
    000
  • AI+Crypto是什么概念?盘点人工智能与区块链结合的五大应用方向

    AI+Crypto通过融合人工智能与区块链,构建去中心化智能系统:一、去中心化算力网络整合全球闲置GPU资源,降低AI算力成本90%,如io.net、Aethir和Bittensor实现分布式训练;二、数据隐私保护结合零知识证明与区块链存储,确保医疗等敏感数据“可用不可见”,Arweave保障数据主…

    2025年12月9日
    000
  • 以太坊合约AI预测工具有哪些?以太坊合约AI预测工具APP大全

    以太坊合约AI预测工具通过集成人工智能技术,帮助用户分析链上数据与市场趋势。一、CryptoEye提供实时价格预测与交互式分析,用户可下载App后选择ETH页面,启用AI模块并提问获取即时解析,订阅服务解锁完整功能。二、币安智能分析系统结合AI算法扫描ETH合约交易行为,登录APP后进入ETH合约区…

    2025年12月9日
    000
  • 区块链与加密货币哪个更具潜力?区块链与加密货币详细解析

    区块链技术具有广泛的应用潜力,涵盖供应链、医疗、数字身份等领域,其去中心化与不可篡改特性提升数据透明与安全;加密货币作为其典型应用,以比特币、以太坊和稳定币为代表,在价值存储、去中心化金融和跨境支付中发挥重要作用;同时,区块链与AI、物联网融合,推动智能合约、跨链协议等创新模式发展,拓展了技术边界与…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信