爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

多层感知器(MLP),也被称为全连接前馈神经网络,是如今深度学习模型的基础构建块。MLP 的重要性无论如何强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。

但是最近,来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且,它能以非常少的参数量胜过以更大参数量运行的 MLP。比如,作者表示,他们用 KAN 重新发现了结理论中的数学规律,以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说,DeepMind 的 MLP 有大约 300000 个参数,而 KAN 只有大约 200 个参数。

微调内容如下:这些惊人的研究成果让KAN迅速走红,吸引了很多人对其展开研究。很快,有人提出了一些质疑。其中,有一篇标题为“KAN is just MLP”的Colab文档成为了讨论的焦点。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

KAN 只是一个普通的 MLP?   

上述文档的作者表示,你可以把 KAN 写成一个 MLP,只要在 ReLU 之前加一些重复和移位。

在一个简短的示例中,作者展示了如何将KAN网络改写为具有相同数量参数的、具有轻微的非线性结构的普通MLP。

需要记住的是,KAN 在边上有激活函数。他们使用 B 样条。在展示的例子中,为了简单起见,作者将只使用 piece-wise 线性函数。这不会改变网络的建模能力。

下面是 piece-wise 线性函数的一个例子:

def f(x):if x < 0:return -2*xif x < 1:return -0.5*xreturn 2*x - 2.5X = torch.linspace(-2, 2, 100)plt.plot(X, [f(x) for x in X])plt.grid()

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

作者表示,我们可以使用多个 ReLU 和线性函数轻松重写这个函数。请注意,有时需要移动 ReLU 的输入。

plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)plt.grid()

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

真正的问题是如何将 KAN 层改写成典型的 MLP 层。假设有 n 个输入神经元,m 个输出神经元,piece-wise 函数有 k 个 piece。这需要 n∗m∗k 个参数(每条边有 k 个参数,而你有 n∗m 条边)。

现在考虑一个 KAN 边。为此,需要将输入复制 k 次,每个副本移动一个常数,然后通过 ReLU 和线性层(第一层除外)运行。从图形上看是这样的(C 是常数,W 是权重):

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

现在,可以对每一条边重复这一过程。但要注意一点,如果各处的 piece-wise 线性函数网格相同,我们就可以共享中间的 ReLU 输出,只需在其上混合权重即可。就像这样:

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

在 Pytorch 中,这可以翻译成以下内容:

k = 3 # Grid sizeinp_size = 5out_size = 7batch_size = 10X = torch.randn(batch_size, inp_size) # Our inputlinear = nn.Linear(inp_size*k, out_size)# Weightsrepeated = X.unsqueeze(1).repeat(1,k,1)shifts = torch.linspace(-1, 1, k).reshape(1,k,1)shifted = repeated + shiftsintermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)outputs = linear(intermediate)

现在我们的层看起来是这样的: 

Expand + shift + ReLULinear

一个接一个地考虑三个层:

Expand + shift + ReLU (第 1 层从这里开始)LinearExpand + shift + ReLU (第 2 层从这里开始)LinearExpand + shift + ReLU (第 3 层从这里开始)Linear

忽略输入 expansion,我们可以重新排列

Linear (第 1 层从这里开始)Expand + shift + ReLULinear (第 2 层从这里开始)Expand + shift + ReLU

如下的层基本上可以称为 MLP。你也可以把线性层做大,去掉 expand 和 shift,获得更好的建模能力(尽管需要付出更高的参数代价)。

Linear (第 2 层从这里开始)Expand + shift + ReLU

通过这个例子,作者表明,KAN 就是一种 MLP。这一说法引发了大家对两类方法的重新思考。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

对 KAN 思路、方法、结果的重新审视

其实,除了与 MLP 理不清的关系,KAN 还受到了其他许多方面的质疑。

总结下来,研究者们的讨论主要集中在如下几点。

第一,KAN 的主要贡献在于可解释性,而不在于扩展速度、准确性等部分。

论文作者曾经表示:

KAN 的扩展速度比 MLP 更快。KAN 比参数较少的 MLP 具有更好的准确性。KAN 可以直观地可视化。KAN 提供了 MLP 无法提供的可解释性和交互性。我们可以使用 KAN 潜在地发现新的科学定律。

其中,网络的可解释性对于模型解决现实问题的重要性不言而喻:

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

但问题在于:「我认为他们的主张只是它学得更快并且具有可解释性,而不是其他东西。如果 KAN 的参数比等效的 NN 少得多,则前者是有意义的。我仍然感觉训练 KAN 非常不稳定。」

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

那么 KAN 究竟能不能做到参数比等效的 NN 少很多呢?

这种说法目前还存在疑问。在论文中,KAN 的作者表示,他们仅用 200 个参数的 KAN,就能复现 DeepMind 用 30 万参数的 MLP 发现数学定理研究。在看到该结果后,佐治亚理工副教授 Humphrey Shi 的两位学生重新审视了 DeepMind 的实验,发现只需 122 个参数,DeepMind 的 MLP 就能媲美 KAN 81.6% 的准确率。而且,他们没有对 DeepMind 代码进行任何重大修改。为了实现这个结果,他们只减小了网络大小,使用随机种子,并增加了训练时间。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

对此,论文作者也给出了积极的回应:  

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

第二,KAN 和 MLP 从方法上没有本质不同。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

「是的,这显然是一回事。他们在 KAN 中先做激活,然后再做线性组合,而在 MLP 中先做线性组合,然后再做激活。将其放大,基本上就是一回事。据我所知,使用 KAN 的主要原因是可解释性和符号回归。」

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

除了对方法的质疑之外,研究者还呼吁对这篇论文的评价回归理性:

「我认为人们需要停止将 KAN 论文视为深度学习基本单元的巨大转变,而只是将其视为一篇关于深度学习可解释性的好论文。在每条边上学习到的非线性函数的可解释性是这篇论文的主要贡献。」

第三,有研究者表示,KAN 的思路并不新奇。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

「人们在 20 世纪 80 年代对此进行了研究。Hacker News 的讨论中提到了一篇意大利论文讨论过这个问题。所以这根本不是什么新鲜事。40 年过去了,这只是一些要么回来了,要么被拒绝的东西被重新审视的东西。」

但可以看到的是,KAN 论文的作者也没有掩盖这一问题。

「这些想法并不新鲜,但我不认为作者回避了这一点。他只是把所有东西都很好地打包起来,并对 toy 数据进行了一些很好的实验。但这也是一种贡献。」

与此同时,Ian Goodfellow、Yoshua Bengio 十多年前的论文 MaxOut(https://arxiv.org/pdf/1302.4389)也被提到,一些研究者认为二者「虽然略有不同,但想法有点相似」。

作者:最初研究目标确实是可解释性

热烈讨论的结果就是,作者之一 Sachin Vaidya 站出来了。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

作为该论文的作者之一,我想说几句。kan 受到的关注令人惊叹,而这种讨论正是将新技术推向极限、找出哪些可行或不可行所需要的。

我想我应该分享一些关于动机的背景资料。我们实现 KAN 的主要想法源于我们正在寻找可解释的人工智能模型,这种模型可以「学习」物理学家发现自然规律的洞察力。因此,正如其他人所意识到的那样,我们完全专注于这一目标,因为传统的黑箱模型无法提供对科学基础发现至关重要的见解。然后,我们通过与物理学和数学相关的例子表明,KAN 在可解释性方面大大优于传统方法。我们当然希望,KAN 的实用性将远远超出我们最初的动机。

在 GitHub 主页中,论文作者之一刘子鸣也对这项研究受到的评价进行了回应:

最近我被问到的最常见的问题是 KAN 是否会成为下一代 LLM。我对此没有很清楚的判断。

KAN 专为关心高精度和可解释性的应用程序而设计。我们确实关心 LLM 的可解释性,但可解释性对于 LLM 和科学来说可能意味着截然不同的事情。我们关心 LLM 的高精度吗?缩放定律似乎意味着如此,但可能精度不太高。此外,对于 LLM 和科学来说,准确性也可能意味着不同的事情。

星火作家大神 星火作家大神

星火作家大神是一款面向作家的AI写作工具

星火作家大神 37 查看详情 星火作家大神

我欢迎人们批评 KAN,实践是检验真理的唯一标准。很多事情我们事先并不知道,直到它们经过真正的尝试并被证明是成功还是失败。尽管我愿意看到 KAN 的成功,但我同样对 KAN 的失败感到好奇。

KAN 和 MLP 不能相互替代,它们在某些情况下各有优势,在某些情况下各有局限性。我会对包含两者的理论框架感兴趣,甚至可以提出新的替代方案(物理学家喜欢统一理论,抱歉)。

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

KAN 论文一作刘子鸣。他是一名物理学家和机器学习研究员,目前是麻省理工学院和 IAIFI 的三年级博士生,导师是 Max Tegmark。他的研究兴趣主要集中在人工智能 AI 和物理的交叉领域。

以上就是爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/418823.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 08:43:49
下一篇 2025年11月7日 08:45:32

相关推荐

  • 加密货币基金是什么?12种主流加密货币基金一览

    对于希望涉足数字资产领域但又不想直接管理私钥的投资者而言,加密货币基金提供了一种便捷且专业的途径。这类基金汇集资金,由专业团队投资于一系列加密资产或区块链项目中,旨在分散风险并捕捉行业增长机会。本文将为您介绍什么是加密货币基金,并梳理12个行业内主流的基金,帮助您更好地了解这个赛道。 一、 加密货币…

    2025年12月11日
    000
  • 区块链中的“锁定”是什么?数据块如何被锁定?常见误解介绍

    在区块链技术中,“锁定”并非指物理意义上的锁,而是一种通过密码学和分布式共识达成的“不可篡改”状态。当一笔笔记录被打包成数据块,经过网络验证并添加到链上后,它就变得几乎无法更改。 这个过程的核心在于每个区块都包含了前一个区块的加密哈希值,形成一个环环相扣、按时间顺序排列的链条。这种结构设计与全网节点…

    2025年12月11日
    000
  • TrueFi (TRU币) 是什么?怎么买?TRU价格预测2025-2030年

    目录 什么是 TrueFi (TRU) ?了解TrueFi:目的和技术TrueFi 如何运作?当前市场地位2025年至2030年价格预测1. 2025年预测2. 2026-2027年预测3. 2030年预测可能影响TrueFi价格的因素如何在币安购买TRU币?结论‍ truefi(代币符号为tru)…

    2025年12月11日 好文分享
    000
  • MyShell(SHELL币)是什么?是一个好投资吗?SHELL代币经济与空投领取指南

    目录 MyShell 是什么项目使命和项目价值主张项目重点MyShell(SHELL)最新动态如何参与:第二轮SHELL HODLer空投详情SHELL定期产品限时活动MyShell 的主要功能1. 创建AI代理2. AIpp商店3. 去中心化4. AI语音和演讲5. 社区和开源协作MyShell …

    2025年12月11日
    000
  • Arthur Hayes看好HYPE币 一文了解未来三年内能上涨 126 倍吗?

    目录 一、哪些原因助推了 HYPE 上涨?1.巨鲸行动2.Hyperliquid 现货交易量新高3.多家公司建立 HYPE 财库4.高性能 L1 支撑 Hyperliquid 的运行二、HYPE 的未来会涨到多少?三、总结‍ 2025年8月27日,HYPE 短时触及50美元,续创历史新高,截至发稿报…

    2025年12月11日 好文分享
    000
  • gate交易所排名多少

    Gate.io通常位列全球现货交易平台前10至前20名,具体排名因不同机构的评估标准而异,主要依据交易量、流动性、安全评分及资产多样性等综合因素,其在CoinMarketCap和CoinGecko等权威平台均保持前列,综合实力获广泛认可。 关于Gate.io平台的具体排名,其实并没有一个永恒不变的固…

    2025年12月11日
    000
  • Web3 域名系统:重塑互联网标识

    Web3域名系统通过区块链技术解决传统DNS的中心化、审查、数据主权缺失等问题,实现去中心化身份与数据自主,支持跨链互操作和去中心化存储集成,用户可通过存储注册管理域名,推动数字身份变革并面临采用与监管挑战。 Web3 域名系统(Web3 DNS)正在悄然掀起一场互联网标识的革命,它不仅仅是对传统域…

    2025年12月11日
    000
  • 详细了解以太坊(ETH)及其微策略们的价格剧烈波动时 如何基于mNAV在期权市场稳步前行

    目录 以太坊的DAT飞轮还在持续1.  波动性成为融资的“催化剂”2. 原生收益提供了内生的“稳定器”3. mNAV 溢价构成了飞轮的“加速器”忽视单股币的价格涨跌时正确做多mNAV的姿势当币股增发, 导致溢价下降时, 应该怎样做空mNAV?股权稀释的核心机制看空mNAV的策略:预计BMNR因增发稀…

    2025年12月11日
    000
  • Base AI生态系统:市场概况分析和代币状态介绍

    目录 基础人工智能项目顶级代币项目和市场规模基础人工智能项目代币有哪些?基于关注者和使用情况的社区热点产品类别多样化基础设施/引擎/Koord AI代理dApps /代理和消费者人工智能 数据/隐私与 DeFAI结论 在基于 base 构建(或围绕 base 活跃)的 ai 项目中,市值最高的三个项…

    2025年12月11日 好文分享
    000
  • 区块链是什么,如何简单易懂地介绍区块链?

    区块链是分布式的、公开透明且不可篡改的数字记账本,通过去中心化、共识机制和密码学技术,在互不信任的参与者之间建立无需中介的信任关系,广泛应用于供应链、数字身份、版权保护和物联网等领域。 区块链是什么?如何简单易懂地介绍区块链? 简单来说,区块链就是一个分布式的、公开透明的、且无法被篡改的数字记账本。…

    2025年12月11日
    000
  • 安卓怎么买btc?保姆级教学

    %ignore_a_1%用户购买BTC需先选择可靠交易平台,再注册并完成身份认证,最后通过平台快捷功能买入;务必注意账户安全与市场风险。 安卓怎么买btc?保姆级教学 对于许多安卓用户来说,初次接触和获取BTC(比特币)可能会感到有些困惑。其实,整个过程并不复杂。本文将为您提供一个保姆级的教学指南,…

    2025年12月11日
    000
  • 9月狗狗币DOGE价格会飙升30%吗?

    狗狗币9月可能飙升30%,但非必然,受市场情绪、名人效应、技术信号等积极因素影响,同时面临基本面薄弱、宏观环境压力和供应增加等挑战,多空交织下需谨慎看待。 9月狗狗币DOGE价格会飙升30%吗? 关于狗狗币(DOGE)在9月份价格是否会飙升30%,市场的看法存在分歧。简单来说,这是一个充满可能但同样…

    2025年12月11日
    000
  • 比特币、以太坊与国债:一位纽约客对加密货币变革的看法

    随着以太坊金库的兴起,山寨币正逐步吸引市场的目光。这是否预示着一个新趋势的开始,亦或只是另一轮加密热的前奏? 加密世界的演变速度之快,甚至超过了华尔街银行家说出“区块链”这个词所需的时间。比特币的主导地位正在减弱,而山寨币和以太坊金库则频频登上新闻头条。让我们来深入了解一下数字资产市场正在发生的变革…

    2025年12月11日
    000
  • 数字货币是加密货币吗

    数字货币与加密货币的关系是包含但不等同,加密货币是数字货币的一个特殊子集。数字货币是一个广义术语,涵盖所有以电子形式存在的货币,包括中央银行数字货币、电子货币和加密货币;而加密货币是基于密码学和区块链技术的去中心化数字资产,如比特币和以太坊。两者在发行机制上存在根本差异:数字货币通常由中央机构发行和…

    2025年12月11日
    000
  • SEI价格即将飙升?W形态与MACD激增暗示看涨突破!

    sei价格走势升温!w型、黄金交叉和macd上涨预示潜在反弹。sei能否突破阻力位并达到新目标?答案在这里! SEI价格即将爆发?W型与MACD上涨暗示看涨突破! SEI展现出强烈的看涨信号!W型形态、黄金交叉以及MACD指标的强势上涨,正引发分析师们的广泛关注。我们一起来看看SEI当前的价格表现以…

    2025年12月11日
    000
  • 比特币、巨鲸与币安:解读市场动向

    比特币巨鲸与币安的近期交易深度解析:市场趋势与投资策略展望 比特币、巨鲸与币安:解读市场动向 你是否曾好奇那些巨额比特币交易对我们普通投资者意味着什么?本文将深入分析近期币安平台上的巨鲸动向,并探讨其对加密货币市场的信号意义。 巨鲸警报:1300万美元比特币转账至币安 近日,一位比特币巨鲸将其在过去…

    2025年12月11日
    000
  • XRP、RLUSD 和泰达币:探索不断变化的稳定币格局

    稳定币领域正迎来重大变革,xrp、rlusd 与泰达币(tether)正处在这一浪潮的中心。在监管政策不断收紧、市场竞争愈发激烈的背景下,我们一起来看看这一加密资产细分市场正在经历哪些变化。 RLUSD:合规导向下的新兴力量 由 Ripple 推出的 RLUSD 稳定币正迅速获得市场关注,其信任度评…

    2025年12月11日
    000
  • SPX存入加密巨鲸:解读科技市场关联

    一位加密巨鲸战略性转向spx代币,标志着加密市场与科技市场的融合。本文将深入探讨这一动向对投资者的影响。 各位准备好了吗?一位加密巨鲸正在掀起波澜——这一切都与SPX存款有关,并且它正深刻影响更广泛的科技市场。让我们来看看这对您意味着什么。 SPX存款:巨鲸的一次重磅操作 2025年7月,一位比特币…

    2025年12月11日
    000
  • Chainlink鲸鱼正在积累:LINK牛市即将到来?

    chainlink(link)近期展现出强劲的上涨动力,链上数据显示鲸鱼正在积极囤积代币。这是否预示着价格将迎来大幅上涨?让我们一起来看看当前chainlink的市场动态。 Chainlink 鲸鱼囤积LINK,牛市信号初现? 在经历了一段时间的横盘整理之后,Chainlink(LINK)最近开始活…

    2025年12月11日
    000
  • 代币聚焦:XRP、Solana 与不断变化的加密货币格局

    深入解析 xrp 与 solana:探讨其最新动态与市场地位,把握 altcoin 的发展趋势。 聚焦 altcoin:XRP、Solana 与加密生态的演进 altcoin 市场正迎来新一轮活跃期!XRP 和 Solana 等主流代币正在引发广泛关注。本文将剖析它们的最新进展,为加密投资者提供有价…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信