一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

神经网络作为深度学习技术的基础已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显著影响学习效率,一个好的神经网络架构能够融入问题的先验知识,确立网络训练,提高计算效率。目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况下,从优化算法的角度设计网络结构。这些方法在优化算法的角度设计网络结构时,从优化算法的角度设计网络结构。

现今有经典神经网络架构设计大多忽略了网络的万有逼近性——这是神经网络具备强大性能的关键因素之一。因此,这些设计方法在一定程度上失去了网络的先验性能保障。尽管两层神经网络在宽度趋于无穷的时候已具有万有逼近性质 [3],在实际中,我们通常只能考虑有限宽度的网络结构,这方面的表现分析的结果十分有限。实际上,启发性的人工设计,还是黑匣性质的神经网络架构搜索,都很难在网络设计中考虑万有逼近性质。基于优化的神经网络设计虽然相对更具解释性,但其通常需要一个明显的目标函数,这使得设计的网络结构种类有限,限制了其应用范围。如何系统性地设计工具有万有逼近性质的神经网络架构,仍然是一个重要的问题。

北京大学林宙辰教授团队提出了一种基于优化算法设计工具的神经网络架构,该方法通过将基于梯度的一阶优化算法与基于哈希的二阶优化算法相结合,提高了训练速度和收敛性能,并且增强了神经网络的鲁棒性保障。该神经网络模块也可用于现有基于模块化的网络设计方法,并且不断提高了模型的表现。最近,他们通过分析神经网络微分方程(NODE)的逼近性质,证明了跨层连接的神经网络具有万有近似性质,并利用提出的框架设计了ConvNext、ViT等变种网络,取得了超越baseline的结果。该论文被人工智能顶刊TPAMI接收。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach论文地址:https://ieeexplore.ieee.org/document/10477580

方法简介

传统的基于优化的神经网络设计方法常常从一个具有显式表达式的目标函数出发,采用特定的优化算法进行求解,再将优化结果映射为神经网络结构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得到的显式表达式,将优化结果转化为神经网络结构 [4]。这种方法对于目标函数的显式表达式有着很强的依赖性,因此所得到的网络结构只能针对目标函数的显式表达式进行优化,存在着设计出不符合实际情况的假设的风险。一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重重绑定等实际情况下不一定符合假设的假设。因此,一些研究者提出使用基于神经网络的进化算法进行网络架构搜索,来获取更加合理的网络结构。

网络架构设计方案的更新格式应遵循从一阶优化算法到更近点算法的思路,进行逐步优化。例如,可以将欧拉角算法改为四元数算法,或者采用更加高效的迭代算法来近似求解。更新格式应考虑增加计算精度和提高运行效率。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其中一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法表示第 k 步更新时的(步长)系数,再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

整体方法框架见图 1。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 1 网络设计图示

论文提出的方法可以启发设计 ResNet、DenseNet 等经典网络,并且解决了传统基于优化设计网络架构的方法局限于特定目标函数的问题。

模块选取与架构细节

该方法所设计的网络模块 T 只要求有包含两层网络结构,即一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法,作为其子结构,即可保证所设计的网络具有万有逼近性质,其中所表达的层的宽度是有限的(即不随逼近精度的提高而增长),整个网络的万有逼近性质不是靠加宽一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的层来获得的。模块 T 可以是 ResNet 中广泛运用的 pre-activation 块,也可以是 Transformer 中的注意力 + 前馈层的结构。T 中的激活函数可以是 ReLU、GeLU、Sigmoid 等常用激活函数。还可以根据具体任务在中添加对应的归一化层。另外,一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法时,设计的网络是隐式网络 [5],可以用不动点迭代的方法逼近隐格式,或采用隐式微分(implicit differentiation)的方法求解梯度进行更新。

通过等价表示设计更多网络

该方法不要求同一种算法只能对应一种结构,相反,该方法可以利用优化问题的等价表示设计更多的网络架构,体现其灵活性。例如,线性化交替方向乘子法通常用于求解约束优化问题:一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法通过令一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法即可得到一种可启发网络的更新迭代格式:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其启发的网络结构可见图 2。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 2 线性化交替方向乘子法启发的网络结构

启发的网络具有万有逼近性质

问问小宇宙 问问小宇宙

问问小宇宙是小宇宙团队出品的播客AI检索工具

问问小宇宙 77 查看详情 问问小宇宙

对该方法设计的网络架构,可以证明,在模块满足此前条件以及优化算法(在一般情况下)稳定、收敛的条件下,任意一阶优化算法启发的神经网络在高维连续函数空间具有万有逼近性质,并给出了逼近速度。论文首次在有限宽度设定下证明了具有一般跨层连接的神经网络的万有逼近性质(此前研究基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:

主定理(简略版):设一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法 A 是一个梯度型一阶优化算法。若算法 A 具有公式 (1) 中的更新格式,且满足收敛性条件(优化算法的常用步长选取均满足收敛性条件。若在启发网络中均为可学习的,则可以不需要该条件),则由算法启发的神经网络:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

在连续(向量值)函数空间一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法以及范数一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法下具有万有逼近性质,其中可学习模块 T 只要有包含两层形如一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的结构(σ 可以是常用的激活函数)作为其子结构都可以。

常用的 T 的结构如:

1)卷积网络中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),

2)Transformer 中:Attn (z) + MLP (z+Attn (z)).

主定理的证明利用了 NODE 的万有逼近性质以及线性多步方法的收敛性质,核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步方法对连续的 NODE 的离散化,从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中,论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度,解决了此前论文 [6] 的一个遗留问题。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 1 此前万有逼近性质的研究基本集中在 FCNN 和 ResNet

实验结果

论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络(称为 OptDNN),网络信息见表 2,并在嵌套环分离、函数逼近和图像分类等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的方法设计了改进的 OptDNN,并在图像分类的问题上进行实验,考虑准确率和 FLOPs 两个指标。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 2 所设计网络的有关信息

首先,OptDNN 在嵌套环分离和函数逼近两个问题上进行实验,以验证其万有逼近性质。在函数逼近问题中,分别考虑了逼近 parity function 和 Talgarsky function,前者可表示为二分类问题,后者则是回归问题,这两个问题都是浅层网络难以逼近的问题。OptDNN 在嵌套环分离的实验结果如图 3 所示,在函数逼近的实验结果如图 3 所示,OptDNN 不仅取得了很好的分离 / 逼近结果,而且比作为 baseline 的 ResNet 取得了更大的分类间隔和更小的回归误差,足以验证 OptDNN 的万有逼近性质。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 3 OptNN 逼近 parity function

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 4 OptNN 逼近 Talgarsky function

然后,OptDNN 分别在宽 – 浅和窄 – 深两种设定下在 CIFAR 数据集上进行了图像分类任务的实验,结果见表 3 与 4。实验均在较强的数据增强设定下进行,可以看出,一些 OptDNN 在相同甚至更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验,也取得了类似的实验结果。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 3 OptDNN 在宽 – 浅设定下的实验结果

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 4 OptDNN 在窄 – 深设定下的实验结果

论文进一步选取了此前表现较好的 OptDNN-APG2 网络,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验,OptDNN-APG2 的网络结构见图 5,实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设计方法的可靠性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 5 OptDNN-APG2 的网络结构

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 5 OptDNN-APG2 在 ImageNet 上的性能比较

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 6 OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较

最后,论文依照 Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络,并在 CIFAR 数据集上和显式的 ResNet 以及一些常用的隐式网络进行了比较,实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果,也说明了方法的灵活性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 7 隐式网络的性能比较

总结

神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计具有万有逼近性质保障的神经网络架构的统一框架,拓展了基于优化设计网络架构范式的方法。该方法可以与现有大部分聚焦网络模块的架构设计方法相结合,可以在几乎不增加计算量的情况下设计出高效的模型。在理论方面,论文证明了收敛的优化算法诱导的网路架构在温和条件下即具有万有逼近性质,并弥合了 NODE 和具有一般跨层连接网络的表示能力。该方法还有望与 NAS、 SNN 架构设计等领域结合,以设计更高效的网络架构。

以上就是一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/423265.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 10:20:42
下一篇 2025年11月7日 10:21:20

相关推荐

  • 谷歌发布 I/O 版 Gemini2.5 Pro 模型 助力开发者提高效率

    5 月 7 日消息,谷歌在 i/o 全球开发者大会前夕,推出了 i/o edition 特别预览版的 gemini 2.5 pro 模型。这款模型主要针对开发者群体,展现出在前端开发和复杂编程任务上的卓越能力,同时具备先进的多模态处理功能。 Gemini 2.5 Pro ( I/O Edition …

    2025年12月6日 硬件教程
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 大众集团公布上海车展参展计划:发布7款全球首发新车

    大众汽车集团上海车展盛大亮相:七款全球首秀车型及全新驾驶辅助系统 大众汽车集团将在即将开幕的上海车展上带来七款全球首发车型,其中五款将在4月22日的媒体之夜率先登场。 本次车展,大众集团还将发布一款专为中国市场研发的先进驾驶辅助系统,由其在华智能驾驶研发合资企业酷睿程打造。 ☞☞☞AI 智能聊天, …

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000
  • Go语言中正确地向切片追加元素:理解变量作用域与短声明

    本文深入探讨了Go语言中向切片追加元素时常见的陷阱——变量作用域与短声明(:=)的误用。通过分析一个具体的SQL查询结果切片构建案例,我们解释了为何在循环内部使用 := 会导致变量遮蔽和数据丢失,并提供了使用赋值操作符 = 进行正确追加的解决方案,帮助开发者避免此类编译错误和逻辑问题。 在go语言开…

    2025年12月2日 后端开发
    000
  • mysql能存储多少条数据

    %ignore_a_1%是中小型网站普遍使用的数据库之一,可是有很多人都并不清楚mysql到底能支持多大的数据量。下面我将带大家了解一下。 其实MySQL单表的上限,主要与操作系统支持的最大文件大小有关。 官方的介绍: MySQL 3.22 限制的表大小为4GB。由于在MySQL 3.23 中使用了…

    2025年12月2日 数据库
    000

发表回复

登录后才能评论
关注微信