BentoML 发布 llm-optimizer,LLM 推理和性能优化开源工具

bentoml 发布 llm-optimizer,llm 推理和性能优化开源工具

BentoML 近日推出了 llm-optimizer,一个开源的 LLM 推理基准测试与优化工具。该工具支持多种推理框架,并可兼容任意开源大语言模型。

llm-optimizer 的目标是将原本繁琐的手动性能调优过程自动化。用户只需几个命令,即可集中化地运行结构化实验、施加约束条件并可视化分析结果。

使用示例:

llm-optimizer estimate   --model meta-llama/Llama-3.1-8B-Instruct   --input-len 1024   --output-len 512   --gpu A100   --num-gpus 2

预期输出:

=== Configuration ===Model: meta-llama/Llama-3.1-8B-InstructGPU: 2x A100Precision: fp16Input/Output: 1024/512 tokensTarget: throughputFetching model configuration...Model: 8029995008.0B parameters, 32 layers=== Performance Analysis ===Best Latency (concurrency=1):  TTFT: 43.1 ms  ITL: 2.6 ms  E2E: 1.39 sBest Throughput (concurrency=512):  Output: 18873.3 tokens/s  Input: 23767.8 tokens/s  Requests: 14.24 req/s  Bottleneck: Memory=== Roofline Analysis ===Hardware Ops/Byte Ratio: 142.5 ops/bytePrefill Arithmetic Intensity: 52205.5 ops/byteDecode Arithmetic Intensity: 50.9 ops/bytePrefill Phase: Compute BoundDecode Phase: Memory Bound=== Concurrency Analysis ===KV Cache Memory Limit: 688 concurrent requestsPrefill Compute Limit: 8 concurrent requestsDecode Capacity Limit: 13 concurrent requestsTheoretical Overall Limit: 8 concurrent requestsEmpirical Optimal Concurrency: 16 concurrent requests=== Tuning Commands ===--- SGLANG ---Simple (concurrency + TP/DP):  llm-optimizer --framework sglang --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tp_size*dp_size=[(1, 2), (2, 1)]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_sglang.jsonAdvanced (additional parameters):  llm-optimizer --framework sglang --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tp_size*dp_size=[(1, 2), (2, 1)];chunked_prefill_size=[1434, 2048, 2662];schedule_conservativeness=[0.3, 0.6, 1.0];schedule_policy=fcfs" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_sglang.json--- VLLM ---Simple (concurrency + TP/DP):  llm-optimizer --framework vllm --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tensor_parallel_size*data_parallel_size=[(1, 2), (2, 1)]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_vllm.jsonAdvanced (additional parameters):  llm-optimizer --framework vllm --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tensor_parallel_size*data_parallel_size=[(1, 2), (2, 1)];max_num_batched_tokens=[1024, 1177, 1331]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_vllm.json

此工具应对了 LLM 部署中的典型难题:如何在不依赖反复试错的前提下,找到延迟、吞吐量与成本之间的最优平衡。llm-optimizer 提供了一种系统化探索模型性能空间的方法,通过自动执行基准测试和配置搜索,显著减少了人为猜测和重复劳动。

项目开源地址:https://www.php.cn/link/c11a6c8821cdb24676ff61d9b59c10a0

以上就是BentoML 发布 llm-optimizer,LLM 推理和性能优化开源工具的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/106863.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月22日 11:05:49
下一篇 2025年11月22日 11:30:18

相关推荐

  • 2025年如何用 PayPal 购买 USDT?最新费率对比和安全指南

    USDT(泰达币)作为一种重要的稳定币,在加密市场中扮演着不可或缺的角色。它与美元1:1挂钩,为投资者提供了规避市场波动风险的工具,同时也成为进入加密世界的便捷入口。而PayPal,作为全球领先的在线支付平台,其用户基础和便捷性使其成为许多人购买数字资产的潜在选择。2025年,随着支付技术的不断进步…

    2025年12月11日
    000
  • 滞胀2.0下的终极对冲选择:黄金还是比特币?

    在当前滞胀2.0背景下,投资者纷纷寻求有效的资产对冲工具。传统避险资产黄金(Gold)与新兴数字资产比特币(BTC)成为焦点,究竟哪种资产更适合抵御通胀和市场不确定性? 一、黄金与比特币的避险特性对比 黄金作为传统避险资产,其长期保值能力和流动性优势显著,适合稳健型投资者。相比之下,比特币因稀缺性与…

    2025年12月11日
    000
  • 虚拟货币交易所哪个用的人最多最好用?新手如何选择?虚拟货币交易所推荐

    币安、欧易OKX、芝麻开门gate.io、火币、KuCoin、Kraken、BITFINEX和Bitstamp是推荐的虚拟货币交易所。币安以丰富的交易对和一站式生态著称;欧易OKX在衍生品和Web3领域表现突出;芝麻开门提供海量币种及早期投资机会;火币稳定可靠,服务亚洲用户友好;KuCoin以“宝石…

    2025年12月11日 好文分享
    000
  • PEPE合约的自动减仓机制是什么?一文搞懂PEPE合约自动减仓机制

    PEPE合约中的自动减仓机制是一种风险控制方式,旨在保障交易平台和投资者在市场剧烈波动中维持账户安全。这一机制会在特定情况下触发,通过自动调整仓位来降低潜在损失。 自动减仓的触发条件 1、当市场出现极端行情时,系统会根据资金风险情况自动判断是否需要执行减仓。 2、保证金比例过低时,系统会优先对高风险…

    2025年12月11日
    000
  • BTC比特币在哪购买 BTC购买渠道官网登录入口

    对于许多初次接触数字资产的朋友来说,寻找到一个安全可靠的渠道来获取BTC是入门的第一步。一个好的平台不仅能保障资产安全,还能提供流畅的交易体验。本文将为您介绍几个主流的BTC购买渠道,并分析如何安全地访问它们的官方入口。 一、主流BTC获取渠道盘点 1、binance (币安): Binance (…

    2025年12月11日
    000
  • USDT储存平台有哪些 USDT安全储存软件前十名汇总

    选择一款安全可靠的usdt储存软件,是保障数字资产安全的第一步。本文为您精选了市场上备受认可的十大usdt管理工具,涵盖了硬件和软件两大类别,旨在帮助您根据自身需求,找到最合适的资产保管方案。 一、Binance  Binance官方APP: 1、这是一款顶级的硬件储存设备,通过离线方式保管您的私钥…

    2025年12月11日 好文分享
    000
  • btc币行情在哪里看 比特币BTC行情分析软件推荐

    一、头部交易平台 1、直接在主流交易平台上查看行情是最直接的方式,因为这里的数据是正在发生的真实交易的直接反映,延迟最低。 2、诸如 币安(Binance) 或 OKX 这类大型平台,都内置了功能完善的行情图表工具。这些工具通常由TradingView提供技术支持,因此在功能上与专业版相似,使用体验…

    2025年12月11日
    000
  • 永续合约返佣平台榜单 币圈永续合约返佣平台前十名App汇总

    对于合约交易者而言,选择一个高效的返佣平台是有效降低交易成本、提升盈利空间的关键一步。本文将详细介绍当前市场上表现出色的十大永续合约返佣平台app,通过解析其核心优势与返佣机制,帮助您做出明智的选择,从而在交易中获得更多主动权。 一、Binance(币安) 官方安卓APP: 1、作为全球交易量领先的…

    2025年12月11日 好文分享
    000
  • 加密货币正规交易平台哪个好 数字货币十大交易软件最新

    Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: 选一个靠谱的加密货币交易平台,关键看安全、合规、交易体验和适合自己的需求。从2025年的市场情况来看,以下几个平台在用户中口碑较好,各有侧重。 币安(Bin…

    2025年12月11日
    000
  • 怎么进入币圈一级市场,了解并拥抱区块链与加密货币

    Binance币安 欧易OKX ️ Huobi火币️ 想进入币圈一级市场,不是找个平台注册就能行。一级市场的核心是“早”和“准”,投到早期项目,拿到分配额度,等它上线交易所后产生溢价。但这背后需要扎实的认知和策略,不然很容易踩坑。 什么是币圈一级市场? 一级市场指的是新项目在正式上线交易所前的融资阶…

    2025年12月11日
    000
  • 币圈K线入门,一文教你看懂K线

    Binance币安 欧易OKX ️ Huobi火币️ 刚进币圈,看到交易平台上花花绿绿的K线图是不是有点懵?别担心,K线其实没那么复杂。掌握它,是你看懂市场情绪、判断价格走势的第一步。这篇文章会用最直白的方式,带你快速入门K线的基本结构和常见形态,让你不再“盲买瞎卖”。 什么是K线? K线,又叫“蜡…

    2025年12月11日
    000
  • 永续合约怎么看成本均线 永续合约成本均线查看教程

    对于永续合约的参与者而言,清晰地了解持仓成本是做出明智决策的关键。成本均线作为一个直观的图表工具,能够帮助用户实时掌握盈亏平衡点,本文将详细介绍其概念、查看方法及实际应用价值。 币圈永续合约安全平台推荐 1、欧易okx 官网入口: 官方App: 2、币安Binance 官网入口: 官方APP: 3、…

    2025年12月11日
    000
  • 永续合约新手玩法推荐 永续合约新手必看攻略

    对于永续合约的参与者而言,清晰地了解持仓成本是做出明智决策的关键。成本均线作为一个直观的图表工具,能够帮助用户实时掌握盈亏平衡点,本文将详细介绍其概念、查看方法及实际应用价值。 加密货币永续合约交易平台推荐 1、欧易okx 官网入口: 官方App: 2、币安Binance 官网入口: 官方APP: …

    2025年12月11日
    000
  • 如何查看SOL合约未平仓量?SOL合约未平仓量查看方法

    想要了解SOL合约未平仓量的情况,可以帮助交易者判断市场情绪和资金流向,从而制定更合理的操作策略。本文将为你详细介绍查看SOL合约未平仓量的方法,让你快速掌握这一关键数据。 通过交易所官网查看 1、访问SOL合约交易平台官网,登录账户。 2、找到合约交易页面,选择你关注的SOL合约。 3、查看合约详…

    2025年12月11日
    000
  • SOL合约最大开仓量多少?SOL合约最大开仓量介绍

    在数字货币市场中,SOL合约因其灵活的交易方式备受投资者关注。了解合约的最大开仓量对于控制风险和合理配置资金非常重要。 合约最大开仓量概述 1、不同交易所对SOL合约的开仓量限制有所不同,需要参考具体平台的规则。 2、最大开仓量与账户保证金、杠杆倍数密切相关,杠杆越高,可开仓量可能越低。 3、平台通…

    2025年12月11日
    000
  • 如何查看TRON(TRX)合约的交易记录?TRON(TRX)合约交易记录查看指南

    想要了解 TRON(TRX) 合约 的交易记录,其实并不复杂。掌握正确的方法,您就可以轻松查看每笔交易的详细信息,包括转账金额、交易时间以及参与地址等。 使用 TRON 区块浏览器查询 1、访问 TRON 官方区块浏览器,如 Tronscan。 2、在搜索栏输入合约地址或账户地址。 3、点击查询结果…

    2025年12月11日
    000
  • 加密货币交易软件排行榜 2025年最新十大交易所排名榜单

    Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: 2025年加密货币交易所格局趋于稳定,头部平台凭借各自优势占据不同细分市场。选择合适的交易软件,关键在于匹配你的交易习惯、风险偏好和所在地区。以下是综合流动…

    2025年12月11日
    000
  • 什么是以太坊Fusaka?解读以太坊Fusaka升级和EIP列表

    目录 什么是以太坊 Fusaka Uprade?Fusaka升级改造的主要优势以太坊 Fusaka 发布日期Fusaka环境展望论坛和 PeerDAS 解读什么是EOF?什么是PeerDAS?以太坊Fusaka EIP 列表Fusaka 会让 ETH 投资者受益吗?Fusaka升级有哪些风险?最后的…

    2025年12月11日 好文分享
    000
  • 如何查看SOL合约交易历史?SOL合约交易历史查看方法

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: Solana(SOL)作为高速区块链平台,其合约交易历史对于开发者和投资者都非常重要。掌握查看方法可以帮助用户跟踪交易动态和合约执行情况,从而更好地管理资产。 使用…

    2025年12月11日
    000
  • OKX是什么交易所?OKX欧易交易所使用教程

    OKX官方合作伙伴认证 · 一站式安全交易体验 官网直达: 安卓安装包下载: OKX(欧易)是全球领先的数字货币交易平台,成立于2017年5月31日,前身为OKEx。平台服务覆盖200多个国家和地区,拥有千万级用户,提供现货、合约、期权、Web3钱 包等多种产品,交易深度和流动性表现优异,在业内属于…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信