AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

ai 自动生成苹果芯片 metal 内核,比官方的还要好?

Gimlet Labs 的最新研究显示,在苹果设备上,AI 不仅能自动生成 Metal 内核,还较基线内核实现了87%的 PyTorch 推理速度提升

更惊人的是,AI 生成的 Metal 内核还在测试的 215 个 PyTorch 模块上实现了平均1.87 倍的加速,其中一些工作负载甚至比基准快了数百倍。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

真就 AI Make 苹果 AI Great Again?

用 AI 为苹果设备生成内核

先说结论:通过 AI 自动实现内核优化,可以在无需修改用户代码、无需新框架或移植的情况下,显著提升模型性能。

为了证明这一点,研究人员选取了来自 Anthropic、DeepSeek 和 OpenAI 的 8 个顶尖模型,让它们为苹果设备生成优化的 GPU 内核,以加速 PyTorch 推理速度。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

至于为什么是苹果?别问——问就全球最大硬件供应商(doge)

接下来,让我们看看研究人员是怎么做的:

实验设置

首先,在模型选择方面,参与测试的模型包括:claude-sonnet-4、claude-opus-4;gpt-4o、gpt-4.1、gpt-5、o3;deepseek-v3、deepseek-r1。

其次,在测试输入方面,研究使用了 KernelBench 数据集中定义的 PyTorch 模块,并选取了其中 215 个模块进行测试。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

这些被选取的模块被划分为三个等级,分别是第一级的简单操作(如矩阵乘法、卷积);第二级是由第一级操作组成的多操作序列;第三级是完整的模型架构(如 AlexNet、VGG)。

再次,在评估指标方面,研究人员主要关注两个指标:一是 AI 生成内核的正确性,二是其相较于基准 PyTorch 的性能提升。

最后,研究使用的苹果硬件为Mac Studio ( Apple M4 Max chip ) ,Baseline 为PyTorch eager mode(划重点,一会要考)

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

实验测试

在上述准备完毕后,研究团队展开了测试。

测试流程如下:

接收提示(prompt)和 PyTorch 代码;

生成 Metal 内核;

评估其是否在正确性(correctness^4)上与基准 PyTorch 一致;

如果编译失败或不正确,则将错误信息回传给智能体重试,最多允许重试 5 次。

如上所说,研究者首先关注 AI 生成内核的正确性。

实验表明,正确性会随着尝试次数的增加而提升。以o3为例:第一次尝试就有约60%的概率得到可用实现,到第5 次尝试时可用实现比例达到94%。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

此外,研究还发现推理模型非常擅长跨层级生成正确的内核,尽管非推理模型有时也能做到这一点。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

那么,AI 生成的内核表现如何呢?

实验结果相当惊艳,几乎每个模型都生成了一些比基准更快的内核。

例如,GPT-5 在一个 Mamba 25 状态空间模型上实现了4.65 倍的加速,其主要通过内核融合(kernel fusion) 来减少内核调用的开销,并改善内存访问模式。

在一些案例中,o3 甚至将延迟提升了超过9000倍!

总体而言,GPT-5 平均可以带来约 20% 的加速,其他模型则落后。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

不过,GPT 并非是门门最优,研究人员发现 GPT-5 在34%的问题上生成了最优解。

但在另外30%的问题上,其他模型生成的解比 GPT-5 更优!

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

这就意味着没有单一模型能在所有问题上都生成最优内核。

因此,如果把多个模型组合起来,就能更大概率生成最优内核。

于是乎,研究人员又展开了智能体群体实验(Agentic Swarm)。

智能体群体实验

果不其然,相较于单个模型,智能体群体策略实现了更高的性能提升。

与 GPT-5 相比,智能体群体在各层级平均加速31%,在 Level 2 问题上加速42%。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

在几乎没有上下文信息的情况下(仅有输入问题和提示),智能体群体就已经表现得相当不错。

接下来,研究人员尝试为智能体提供更多上下文,以获取更快的内核。

这里主要包含两个额外的信息来源:

CUDA 实现(由于 Nvidia GPU 的普及,通常可以获得优化过的 CUDA 参考实现);

M4 上 gputrace 的性能分析信息。 ( 包含 Apple Script 捕获的 gputrace 摘要、内存和时间线视图 )

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

在具体的实施步骤中,研究者先将截图处理任务分配给一个子智能体(subagent),让它为主模型提供性能优化提示。

在收到提示后,主智能体先进行一次初步实现,然后对其进行性能分析和计时。

随后,再将截图传给子智能体以生成性能优化提示。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

实验表明,在上下文配置方面也没有所谓的 ” 单一最佳 ” 方案。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

不过,在具体的性能加速方面,加入这些额外上下文实现了平均 1.87 倍的加速,相较于普通智能体仅实现的 1.31 倍的平均加速,额外上下文将提升幅度提高了三倍!

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

有提升,但看跟谁比

为了更深入地讨论,我们有必要先回顾一些背景知识。

在 PyTorch 中,我们通常会调用如 Sequential、ReLU 这样的函数。

在具体的执行中,PyTorch 会先将函数拆解为张量运算(矩阵乘法、加法等),再交给 GPU 执行。

这时就需要 GPU 内核(kernel)负责把这些数学操作转成 GPU 可理解的低级并行指令。

因此,在某种程度上,我们可以说 GPU 内核就像 C 编译器一样,其性能对于运算效率至关重要。

而上面这篇工作所做的,就是让原本必须由工程师手写的内核优化交给 AI 自动完成,并测试它的性能。

不过,问题就来了。

众所周知,苹果硬件并不像英伟达的 CUDA 一样,对 PyTorch 有很好的优化。

因此,这篇研究直接拿 MPS 后端原生实现和 AI 生成的内核对比是有失公允的。

不少眼尖的网友也是发现并指出了这一点:文章里所用的 baseline 是 eager mode,这通常只用于训练调试或指标计算,不会被真正部署到设备上。

在真实部署中,一般会先把模型导出为 ONNX,再编译成设备原生格式(Metal、CUDA 或 ROCm 等),这样效率会比直接用 PyTorch eager mode 高很多。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

所以,无论内核是工程师手写,还是 AI 自动生成,经过优化的 GPU 内核都会比未优化的 PyTorch 推理快得多。

因此,拿调试过的内核和 eager 比,多少有点奇怪。

对此,研究人员回应道:

这篇工作不是为了展示部署环境的最终性能极限,而是展示 AI 自动生成内核的可行性。

AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%

研究的目的是在内核工程方面获得人类专家一定程度的效益,而无需开发人员的额外投入,希望通过 A 将部分流程自动化。

所以,重点不在于性能提升,而在原型验证。

对此,你怎么看?

参考链接

[ 1 ] https://gimletlabs.ai/blog/ai-generated-metal-kernels-content-fn-4

[ 2 ] https://news.ycombinator.com/item?id=45118111

[ 3 ] https://en.wikipedia.org/wiki/Compute_kernel

[ 4 ] https://github.com/ScalingIntelligence/KernelBench/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

以上就是AI 生成苹果 Metal 内核,PyTorch 推理速度提升 87%的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/38568.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 15:34:14
下一篇 2025年11月5日 15:45:55

相关推荐

  • 数字货币好用的交易平台 炒币好用的货币交易平台

    基于上述多重考量,结合全球用户口碑、市场影响力、安全记录以及产品创新能力,以下是当前市场上备受推荐的数字货币交易平台排名。请注意,加密货币市场发展迅速,平台表现可能动态变化,此排名仅供参考,请以您自身需求为准。 第1名:Binance (币安) Binance作为全球领先的加密货币交易平台,以其庞大…

    2025年12月8日 好文分享
    000
  • Magacoin Finance:Q3 2025起飞的加密货币预售

    随着q3 2025的临近,magacoin finance正掀起一股热潮。了解为何分析师将其预售视为潜在爆发增长的机会。 随着2025年第三季度的临近,加密市场对一些早期项目充满了期待,而这些项目被认为具有巨大潜力。在众多项目中,Magacoin Finance逐渐崭露头角,吸引了资深分析人士和散户…

    2025年12月8日
    000
  • okex易欧交易所2025官方最新版本 okex安卓正版下载v6.126.1

    OKEx易欧交易所作为全球领先的数字资产交易平台,一直致力于为用户提供安全、稳定、便捷的交易服务。为了让您能够第一时间体验OKEx易欧交易所的最新功能,享受更流畅的交易体验,我们特别为您准备了这份详细的OKEx易欧交易所2025官方最新版本(v6.126.1)安卓正版APP下载安装教程。 欧易okx…

    2025年12月8日
    000
  • 欧易OKX里面的avl是什么意思?对交易有什么参考价值

    欧易OKX中的“AVL”解析与参考价值 在数字资产交易平台欧易okx上,用户界面中常会看到“avl”这一缩写。它并非一个复杂的专业术语,也与抽象的金融概念无关,而是指用户账户中“可用余额”(available balance)。这个数值直观地显示了您的数字资产中,有多少是当前可以自由支配、用于交易、…

    好文分享 2025年12月8日
    000
  • 币安交易所官方入口网址 币安官网链接2025

    币安交易所是全球领先的数字资产交易平台,以安全性高、交易品种丰富、操作便捷著称,并构建了涵盖交易、教育、公益、区块链开发等多领域的生态系统。其成功源于深刻理解用户需求和行业趋势,持续优化服务,拓展创新业务如币安链、币安智能链等。为确保访问安全,请1.验证域名;2.检查SSL证书;3.使用书签;4.避…

    2025年12月8日
    000
  • 币安交易所官方入口网址 币安官网链接最新版

    币安是全球领先的加密货币交易平台,其优势包括1.强大的安全性保障,2.丰富的交易品种选择,3.流畅的用户体验,4.创新的金融服务,5.专业的客户服务;用户可通过官方入口网址安全访问平台;为开始币安之旅,需1.访问官方网站,2.注册账户,3.完成身份验证(KYC),4.设置安全措施,5.开始交易;币安…

    2025年12月8日
    000
  • 欧易okx交易所APP最新版 欧易okx官方正版v6.126.1

    欢迎使用欧易okx交易所app,这是一个领先的数字资产交易平台,致力于为全球用户提供安全、专业、便捷的数字资产交易及管理服务。平台支持多种数字货币的交易,并提供丰富的金融衍生品。本文将为您提供欧易okx交易所app的官方正版下载链接,确保您下载到安全可靠的应用版本。 欧易官网直达: 欧易官方app:…

    2025年12月8日
    000
  • 易欧交易所APP安卓版 易欧okx官方正版v6.126.1

    易欧交易所(OKX)APP安卓版是数字资产管理的理想选择。作为全球领先的交易平台,OKX提供币币交易、合约交易、Staking、DeFi挖k等多种功能,支持数百种加密货币交易,并为新手提供教程与模拟交易;平台严格遵守法规,采用多重安全机制保障资产安全,用户可通过官网扫码下载最新版本,投资需谨慎,账户…

    2025年12月8日
    000
  • 全球三大交易所排名 虚拟币交易所推荐

    2025年最新虚拟货币交易平台排行榜Top 10包括Binance、OKX、gate.io、火币、Coinbase、Kraken、Bybit、KuCoin、Bitfinex和Crypto.com。 随着虚拟货币市场的持续演进和用户需求的不断变化,选择一个安全、可靠且功能强大的交易平台至关重要。202…

    2025年12月8日
    000
  • 苹果手机(iOS)下载欧易App终极教程

    指定应用可通过官方链接下载并按照步骤安装。1、点击文中提供的官方链接下载安装包;2、找到默认下载位置中的安装文件;3、点击安装文件并允许相关权限;4、同意许可条款并开始安装;5、等待安装完成并启动应用;6、通过主屏幕图标打开应用,进行初始设置或注册登录。整个过程简单清晰,确保用户快速使用应用。 指定…

    2025年12月8日
    000
  • 全球币圈最好用的交易所排名(2025)

    2025年全球前十虚拟货币交易平台依次为Binance、OKX、gate.io、火币、Coinbase、Kraken、Bybit、KuCoin、Bitget和Crypto.com。 数字资产交易平台是全球数字货币市场不可或缺的组成部分。随着市场的演变和技术的迭代,交易平台在安全性、流动性、用户体验和…

    2025年12月8日
    000
  • Pepe硬币与Ozak AI:在模因硬币Frenzy中长期赌注

    导航模因币市场?将pepe的炒作驱动波动与ozak ai的长期潜力对比。精明投资者指南。 Pepe币与Ozak AI:在模因币热潮中押注未来 加密货币世界正掀起波澜!Pepe币因其网络迷因文化而迅速走红,而Ozak AI则凭借人工智能和实际应用,悄然构建其长期价值基础。 Pepe币:追逐模因狂潮,还…

    2025年12月8日
    000
  • Anthony Pompliano的Procap:比特币财政部SPAC交易重新定义融资

    anthony pompliano旗下的procap financial通过与一家spac合并,计划打造一个基于比特币资产负债表的全方位服务金融机构,并获得了10亿美元资金支持。 想象这样一个华尔街:以比特币为动力。这就是Anthony Pompliano带来的全新项目——Procap Financ…

    2025年12月8日
    000
  • Shiba Inu,Pepe Coin和Penny Coins:加密丛林中的嗡嗡声是什么?

    潜入模因币与低价加密货币的世界,如什巴·伊努(shiba inu)、佩佩(pepe)和小佩佩(little pepe),探索最新的趋势、深度洞察以及潜在的替代投资选择。 Shiba Inu、Pepe Coin 与 Penny Coins:加密丛林中的热门话题是什么? 加密市场始终充满不确定性。在主流…

    2025年12月8日
    000
  • Méliuz,Bitcoin和Latin America:令人惊讶的强力球员

    巴西金融科技méliuz崛起为拉丁美洲最大的比特币持有者,而dogecoin正瞄准通过x支付实现主流应用。 金融科技、加密货币与拉美市场的交汇点正变得愈发火热!巴西公司Méliuz正在掀起波澜,而Dogecoin则有望融入X的支付体系。 Méliuz:拉丁美洲的比特币巨头 巴西金融科技企业Méliu…

    2025年12月8日
    000
  • Crypto,2025年,Web3 AI:什么是热,什么不是?

    以下是你要求的伪原创内容,保持了原文的大意,并保留了图片的位置: 深入探索2025年的加密货币发展趋势,聚焦于Web3 AI这一核心领域。在这一迅速演化的生态系统中,我们将揭示领先的项目、关键洞察以及潜在的投资机遇。 到了2025年,加密市场活力四射,Web3 AI正引领这股浪潮。让我们一起梳理当前…

    2025年12月8日
    000
  • DeLorean(DMC)是什么?怎么样?币安即将上线项目DeLorean(DMC)全面介绍

    加密货币世界充满令人兴奋的时刻!最新信息显示,全球最大的加密货币交易所binance 将向用户介绍名为 delorean (dmc) 的山寨币,既包括期货也包括 binance alpha 预上市平台。此举意味着 dmc ,delorean labs 的代币,将迎来一次重大飞跃。 什么是 DeLor…

    2025年12月8日
    000
  • 交易所通行密钥是什么?详解ok交易所通行密钥设置及使用方法

    目录 什么是通行密钥?如何在欧易交易所设置通行密钥?欧易app端操作步骤欧易网页端操作步骤 为了保障账户安全,许多交易所都引入了通行密钥这一先进的安全验证机制。通行密钥是一种基于加密密钥对的全新验证方式,能够在不同设备上实现更快捷、更安全的操作,有效防止网络钓鱼攻击,为您的数字资产提供更可靠的保护。…

    2025年12月8日 好文分享
    000
  • RESOLV 加密代币是什么?如何工作?功能、未来价格介绍

    稳定币旨在为动荡的加密货币世界提供稳定性,但许多稳定币本身也存在一些问题。以法币支持的稳定币为例——它们承诺与美元 1:1 挂钩,因为它们持有现实世界资产(rwa)、实际现金或现金等价物作为抵押品。问题是什么?你必须相信这些中心化公司确实将资金存放在传统金融基础设施中,不会冻结或丢失。这是一种链下风…

    2025年12月8日
    000
  • Polyhedra Network(ZKJ)前景如何?ZKJ价格预测2025-2030

    ‍ polyhedra network (zkj) 正在区块链世界中找到自己的定位,通过改善 web2 和 web3 环境之间的双向互操作性和计算性能。它拥有尖端技术,如 zkbridge 和 expchain,这使其成为零知识证明应用领域的潜在领导者。随着加密货币市场的发展,投资者热衷于了解该加密…

    2025年12月8日 好文分享
    000

发表回复

登录后才能评论
关注微信