4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议

powerinfer 提高了在消费级硬件上运行 ai 的效率

上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了                                  PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。 
这个推理引擎速度有多快?在单个 NVIDIA RTX 4090 GPU 上运行 LLM ,PowerInfer 的平均 token 生成速率为 13.20 tokens/s,峰值为 29.08 tokens/s,仅比顶级服务器 A100 GPU 低 18%,可适用于各种 LLM。

PowerInfer 与本地的先进的LLM推理框架llama.cpp相比,在单个RTX 4090(24G)上执行Falcon(ReLU)-40B-FP16模型,不仅实现了超过11倍的加速,而且还能保持模型的准确性

PowerInfer是一个专门用于本地部署LLM的高速推理引擎。与多专家系统(MoE)不同,PowerInfer巧妙地设计了一款GPU-CPU混合推理引擎,充分利用了LLM推理的高度局部性

将频繁激活的神经元(即热激活)预加载到GPU上以便快速访问,而不经常激活的神经元(即冷激活)则在CPU上进行计算。这是它的工作原理

这种方法能够显著降低GPU内存的需求和CPU与GPU之间的数据传输量

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

项目链接:https://github.com/SJTU-IPADS/PowerInfer

论文链接:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer 可以在配备单个消费级 GPU 的 PC 上高速运行 LLM。现在用户可以将 PowerInfer 与 Llama 2 和 Faclon 40B 结合使用,对 Mistral-7B 的支持也即将推出。

在一天的时间里,PowerInfer就成功获得了2K个星标

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

在看到这项研究之后,网友们表示非常激动:现在单卡 4090 可以跑 175B 的大模型,不再只是一个梦想了

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

PowerInfer 架构

PowerInfer 设计的关键是利用 LLM 推理中固有的高度局部性,其特征是神经元激活中的幂律分布。这种分布表明,一小部分神经元(称为热神经元)跨输入一致激活,而大多数冷神经元则根据特定输入而变化。PowerInfer 利用这种机制设计了 GPU-CPU 混合推理引擎。

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

请参见下图7,展示了PowerInfer的架构概述,包括离线和在线组件。离线组件负责处理LLM的激活稀疏,同时区分热神经元和冷神经元。在在线阶段,推理引擎会将这两种类型的神经元加载到GPU和CPU中,并在运行时以低延迟的方式为LLM请求提供服务

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

图8展示了PowerInfer的工作原理,它协调GPU和CPU处理神经元之间的层次。PowerInfer通过离线数据对神经元进行分类,将活跃的神经元(如索引3、5、7)分配给GPU内存,而将其他神经元分配给CPU内存

一旦接收到输入,预测器将会识别当前层中可能会被激活的神经元。需要注意的是,通过离线统计分析识别的热激活神经元可能与实际运行时的激活行为不一致。例如,虽然神经元7被标记为热激活,但实际上并非如此。然后,CPU和GPU会处理那些已经激活的神经元,而忽略那些未被激活的神经元。GPU负责计算神经元3和5,而CPU处理神经元4。当神经元4的计算完成后,其输出将被发送到GPU进行结果集成

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

Qoder Qoder

阿里巴巴推出的AI编程工具

Qoder 270 查看详情 Qoder

为了重新编写内容而不改变原意,需要将语言重新编写成中文。没有必要出现原始句子

该研究使用不同参数的 OPT 模型进行了为了重新编写内容而不改变原意,需要将语言重新编写成中文。没有必要出现原始句子,参数从 6.7B 到 175B 不等,还包括 Falcon (ReLU)-40B 和 LLaMA (ReGLU)-70B 模型。值得注意的是,175B 参数模型的大小与 GPT-3 模型相当。

本文还对PowerInfer进行了与llama.cpp的比较,llama.cpp是最先进的本地LLM推理框架。为了方便比较,本研究还扩展了llama.cpp以支持OPT模型

考虑到本文的重点是低延迟设置,因此评估指标采用了端到端生成速度,以每秒生成的 token 数量(tokens/s)进行量化

这项研究首先比较了PowerInfer和llama.cpp在批大小为1的情况下的端到端推理性能

在配备 NVIDIA RTX 4090 的 PC-High 上,图 10 展示了各种模型和输入输出配置的生成速度。平均而言,PowerInfer 实现了 8.32 tokens/s 的生成速度,最高可达 16.06 tokens/s,明显优于 llama.cpp,比 llama.cpp 提高了7.23倍,比Falcon-40B 提高了11.69倍

随着输出 token 数量的增加,PowerInfer 的性能优势变得更加明显,因为生成阶段在整体推理时间中扮演着更重要的角色。在这个阶段,CPU 和 GPU 上都会激活少量神经元,相比于llama.cpp,减少了不必要的计算。例如,在OPT-30B的情况下,每生成一个 token,只有大约20%的神经元被激活,其中大部分在GPU上处理,这是PowerInfer神经元感知推理的好处

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

在图11中显示,尽管在PC-Low上,PowerInfer仍然获得了相当大的性能增强,平均加速达到5.01倍,峰值加速达到7.06倍。然而,与PC-High相比,这些改进较小,主要是由于PC-Low的11GB GPU内存限制所致。这个限制会影响可以分配给GPU的神经元数量,尤其是对于具有大约30B参数或更多参数的模型,导致更多地依赖CPU来处理大量激活的神经元

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

图12展示了PowerInfer和llama.cpp之间的CPU和GPU之间的神经元负载分布。值得注意的是,在PC-High上,PowerInfer显著增加了GPU的神经元负载份额,从平均20%增加到了70%。这表明GPU处理了70%的激活神经元。然而,在模型的内存需求远远超过GPU容量的情况下,例如在11GB 2080Ti GPU上运行60GB模型,GPU的神经元负载会降低至42%。这种下降是由于GPU的内存有限,不足以容纳所有激活的神经元,因此需要CPU计算其中的一部分神经元

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

图 13 说明 PowerInfer 有效支持使用 INT4 量化压缩的 LLM。在 PC-High 上,PowerInfer 的平均响应速度为 13.20 tokens/s,峰值可达 29.08 tokens/s。与 llama.cpp 相比,平均加速 2.89 倍,最大加速 4.28 倍。在 PC-Low 上,平均加速为 5.01 倍,峰值为 8.00 倍。由于量化而减少的内存需求使 PowerInfer 能够更有效地管理更大的模型。例如,在 PC-High 上使用 OPT-175B 模型进行的为了重新编写内容而不改变原意,需要将语言重新编写成中文。没有必要出现原始句子中,PowerInfer 几乎达到每秒两个 token,超过 llama.cpp 2.66 倍。

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

最终,该研究还评估了PowerInfer在不同批大小下的端到端推理性能。如图14所示,当批大小小于32时,PowerInfer表现出显著的优势,与llama相比,性能平均提高了6.08倍。随着批大小的增加,PowerInfer提供的加速比会降低。然而,即使批大小设置为32,PowerInfer仍然保持了相当大的加速

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

参考链接:https://weibo.com/1727858283/NxZ0Ttdnz

请查看原论文以了解更多内容

以上就是4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/953744.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 18:00:13
下一篇 2025年12月1日 18:00:35

相关推荐

  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    000
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • html如何修改日期样式

    在html中,可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式,只需要用该选择器选中元素,在设置具体样式即可,具体语法为“::-webkit-datetime-edit{属性:属性值}”。 本教程操作环境:windows7系统、CSS3&&HTML…

    2025年12月21日
    100
  • 单选框的type属性值为什么

    单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型;值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在HTML中,…

    2025年12月21日
    000
  • HTML中type是什么意思

    在HTML中,type是类型的意思,是一个标签属性,主要用于定义标签元素的类型或文档(脚本)的MIME类型;例在input标签中type属性可以规定input元素的类型,在script标签中type属性可以规定脚本的MIME类型。 本教程操作环境:windows7系统、html5版、Dell G3电…

    2025年12月21日
    000
  • HTML中ul标签如何去掉点?HTML无序列表的样式实例解析

    本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉,还有关于html的无序列表ul标签的样式解释,给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧 首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的: 大家应该都使用过ul无序列表标签,ul…

    2025年12月21日 好文分享
    000
  • html中的ol标签如何去掉标号呢?标签的使用方法总结

    本篇文章介绍了html的ol标签是怎么去掉序号标号的,这里还有代码的详细解释,还有介绍了关于html ol有序列表标签如何更改序号,下文介绍了三种序号,大家也可以自己去想填写怎样的序号。现在来看这篇文章吧 一、我们先看看html中的ol标签是如何去掉标号的呢: 我们都知道html的ol标签是个有序列…

    2025年12月21日 好文分享
    000
  • HTML ul标签的什么意思?HTML ul标签的作用详解

    本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法,还有关于html ul标签的解释,包含li标签的还有type属性对ul标签的使用情况,好了,下面大家一起来看文章吧 首先让我们先来解释一下HTML ul标签的意思: ul标签定义的是表格当中无序列表,表格当中的无序列表都是在 标签之中…

    2025年12月21日
    000
  • javascript框架和库是什么_如何选择React、Vue或Angular?

    JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构;React是UI组件库,生态灵活但需自行整合工具;Vue渐进式易上手,兼顾原型与工程化;Angular是全功能TypeScript框架,适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合,用来简化前端开发——…

    2025年12月21日
    000
  • React应用生产环境环境变量配置深度指南

    本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题,深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码,指导开发者正确配置和使用环境变量,解决api调用层面的`null`响应问题,确保应用在生产环境下的稳定运行。 在React应用开发中,环境变量(如API密钥…

    2025年12月21日
    000
  • JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

    JSDoc是一种JavaScript结构化注释规范,通过@param、@returns等标签描述代码元素,并借助工具生成HTML文档,结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解(Annotation)像Java那样的语法,但通过约定的注释格式和配套工具,可…

    2025年12月21日
    000
  • JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

    在JavaScript中可通过JSDoc使用联合类型注解,如string|number表示多类型支持,结合@param、@typedef等标签提升代码可读性与编辑器提示,适用于函数参数、返回值等场景。 在JavaScript中,虽然原生不支持类型注解,但在使用JSDoc配合现代编辑器(如VS Cod…

    2025年12月21日
    000
  • VS Code主题开发:告别JSON,拥抱脚本化生成

    vs code主题扩展最终需json格式定义,但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题,并能实现颜色动态计算,显著提升主题开发的灵活性与效率。 为什么选择脚本化生成VS Code主题? 在开发V…

    2025年12月20日
    000
  • 如何用Quasar框架开发一个跨平台应用?

    Quasar基于Vue.js用一套代码构建多平台应用,支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目,利用模式(SPA、PWA、Electron等)切换目标平台,使用Quasar组件库编写通用UI,配合Pinia管理状态,最后通过不同构建命令发布到各平台,实现高…

    2025年12月20日
    000
  • 怎么利用JavaScript进行前端代码覆盖率统计?

    答案:利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩,结合测试框架收集执行数据并生成报告。具体流程包括:在代码执行前通过Babel或Webpack插件(如babel-plugin-istanbul)插入计数器实现插桩;运行测试时记录哪些代码被执行;…

    2025年12月20日
    100
  • typescript中的参数分享

    TypeScript 中的参数共享允许组件间共享参数,实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数,使用 @Output 装饰器定义子组件事件,以便在子组件状态改变时通知父组件。参数共享提高复用性,简化状态管理,允许子组件向父组件发出通知,但应谨慎使用,避免大量数据共享…

    2025年12月19日
    000
  • 手机如何运行typescript方法

    要在手机上运行 TypeScript 方法,可以使用 TypeScript 编译器或第三方库:TypeScript 编译器: 将 TypeScript 代码编译成 JavaScript,然后集成到移动应用程序中。第三方库: 如 React Native 或 NativeScript,允许使用 Typ…

    2025年12月19日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2025年12月19日
    000
  • TypeScript基本用法和语法

    TypeScript 是一种具有类型系统的 JavaScript 超集,提供以下特性:类型注解:确保变量、函数和类的类型一致。接口:定义方法和属性,供类实现。枚举:提供命名常量集。泛型:创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信