1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

论文地址:https://arxiv.org/abs/2307.09283

代码地址:https://github.com/THU-MIG/RepViT

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

RepViT 在移动端 ViT 架构中表现出色,展现出显著的优势。接下来,我们将探讨本研究的贡献所在。

文中提到,轻量级 ViTs 通常比轻量级 CNNs 在视觉任务上表现得更好,这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而,轻量级 ViTs 和轻量级 CNNs 之间的架构差异尚未得到充分研究。在这项研究中,作者们通过整合轻量级 ViTs 的有效架构选择,逐步提升了标准轻量级 CNN(特别是 MobileNetV3 的移动友好性。这便衍生出一个新的纯轻量级 CNN 家族的诞生,即RepViT。值得注意的是,尽管 RepViT 具有 MetaFormer 结构,但它完全由卷积组成。实验结果表明,RepViT 超越了现有的最先进的轻量级 ViTs,并在各种视觉任务上显示出优于现有最先进轻量级ViTs的性能和效率,包括 ImageNet 分类、COCO-2017 上的目标检测和实例分割,以及 ADE20k 上的语义分割。特别地,在ImageNet上,RepViT 在 iPhone 12 上达到了近乎 1ms 的延迟和超过 80% 的Top-1 准确率,这是轻量级模型的首次突破。

好了,接下来大家应该关心的应该时“如何设计到如此低延迟但精度还很6的模型”出来呢?

方法

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

再 ConvNeXt 中,作者们是基于 ResNet50 架构的基础上通过严谨的理论和实验分析,最终设计出一个非常优异的足以媲美 Swin-Transformer 的纯卷积神经网络架构。同样地,RepViT也是主要通过将轻量级 ViTs 的架构设计逐步整合到标准轻量级 CNN,即MobileNetV3-L,来对其进行针对性地改造(魔改)。在这个过程中,作者们考虑了不同粒度级别的设计元素,并通过一系列步骤达到优化的目标。

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

训练配方的对齐

在论文中,新引入了一个用于衡量移动设备上延迟的指标,并确保训练策略与目前流行的轻量级 ViTs 保持一致。这一举措的目的是为了保证模型训练的一贯性,其中涉及到延迟度量和训练策略的调整两个关键概念。

延迟度量指标

为了更准确地衡量模型在真实移动设备上的性能,作者选择了直接测量模型在设备上的实际延迟,以此作为基准度量。这个度量方法不同于之前的研究,它们主要通过FLOPs或模型大小等指标优化模型的推理速度,这些指标并不总能很好地反映在移动应用中的实际延迟。

训练策略的对齐

这里,将 MobileNetV3-L 的训练策略调整以与其他轻量级 ViTs 模型对齐。这包括使用 AdamW 优化器【ViTs 模型必备的优化器】,进行 5 个 epoch 的预热训练,以及使用余弦退火学习率调度进行 300 个 epoch 的训练。尽管这种调整导致了模型准确率的略微下降,但可以保证公平性。

块设计的优化

接下来,基于一致的训练设置,作者们探索了最优的块设计。块设计是 CNN 架构中的一个重要组成部分,优化块设计有助于提高网络的性能。

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

分离 Token 混合器和通道混合器

这块主要是对 MobileNetV3-L 的块结构进行了改进,分离了令牌混合器和通道混合器。原来的 MobileNetV3 块结构包含一个 1×1 扩张卷积,然后是一个深度卷积和一个 1×1 的投影层,然后通过残差连接连接输入和输出。在此基础上,RepViT 将深度卷积提前,使得通道混合器和令牌混合器能够被分开。为了提高性能,还引入了结构重参数化来在训练时为深度滤波器引入多分支拓扑。最终,作者们成功地在 MobileNetV3 块中分离了令牌混合器和通道混合器,并将这种块命名为 RepViT 块。

降低扩张比例并增加宽度

在通道混合器中,原本的扩张比例是 4,这意味着 MLP 块的隐藏维度是输入维度的四倍,消耗了大量的计算资源,对推理时间有很大的影响。为了缓解这个问题,我们可以将扩张比例降低到 2,从而减少了参数冗余和延迟,使得 MobileNetV3-L 的延迟降低到 0.65ms。随后,通过增加网络的宽度,即增加各阶段的通道数量,Top-1 准确率提高到 73.5%,而延迟只增加到 0.89ms!

宏观架构元素的优化

在这一步,本文进一步优化了MobileNetV3-L在移动设备上的性能,主要是从宏观架构元素出发,包括 stem,降采样层,分类器以及整体阶段比例。通过优化这些宏观架构元素,模型的性能可以得到显著提高。

浅层网络使用卷积提取器

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT图片

ViTs 通常使用一个将输入图像分割成非重叠补丁的 “patchify” 操作作为 stem。然而,这种方法在训练优化性和对训练配方的敏感性上存在问题。因此,作者们采用了早期卷积来代替,这种方法已经被许多轻量级 ViTs 所采纳。对比之下,MobileNetV3-L 使用了一个更复杂的 stem 进行 4x 下采样。这样一来,虽然滤波器的初始数量增加到24,但总的延迟降低到0.86ms,同时 top-1 准确率提高到 73.9%。

更深的下采样层

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

在 ViTs 中,空间下采样通常通过一个单独的补丁合并层来实现。因此这里我们可以采用一个单独和更深的下采样层,以增加网络深度并减少由于分辨率降低带来的信息损失。具体地,作者们首先使用一个 1×1 卷积来调整通道维度,然后将两个 1×1 卷积的输入和输出通过残差连接,形成一个前馈网络。此外,他们还在前面增加了一个 RepViT 块以进一步加深下采样层,这一步提高了 top-1 准确率到 75.4%,同时延迟为 0.96ms。

更简单的分类器

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

在轻量级 ViTs 中,分类器通常由一个全局平均池化层后跟一个线性层组成。相比之下,MobileNetV3-L 使用了一个更复杂的分类器。因为现在最后的阶段有更多的通道,所以作者们将它替换为一个简单的分类器,即一个全局平均池化层和一个线性层,这一步将延迟降低到 0.77ms,同时 top-1 准确率为 74.8%。

整体阶段比例

阶段比例代表了不同阶段中块数量的比例,从而表示了计算在各阶段中的分布。论文选择了一个更优的阶段比例 1:1:7:1,然后增加网络深度到 2:2:14:2,从而实现了一个更深的布局。这一步将 top-1 准确率提高到 76.9%,同时延迟为 1.02 ms。

微观设计的调整

接下来,RepViT 通过逐层微观设计来调整轻量级 CNN,这包括选择合适的卷积核大小和优化挤压-激励(Squeeze-and-excitation,简称SE)层的位置。这两种方法都能显著改善模型性能。

卷积核大小的选择

众所周知,CNNs 的性能和延迟通常受到卷积核大小的影响。例如,为了建模像 MHSA 这样的远距离上下文依赖,ConvNeXt 使用了大卷积核,从而实现了显著的性能提升。然而,大卷积核对于移动设备并不友好,因为它的计算复杂性和内存访问成本。MobileNetV3-L 主要使用 3×3 的卷积,有一部分块中使用 5×5 的卷积。作者们将它们替换为3×3的卷积,这导致延迟降低到 1.00ms,同时保持了76.9%的top-1准确率。

SE 层的位置

自注意力模块相对于卷积的一个优点是根据输入调整权重的能力,这被称为数据驱动属性。作为一个通道注意力模块,SE层可以弥补卷积在缺乏数据驱动属性上的限制,从而带来更好的性能。MobileNetV3-L 在某些块中加入了SE层,主要集中在后两个阶段。然而,与分辨率较高的阶段相比,分辨率较低的阶段从SE提供的全局平均池化操作中获得的准确率提升较小。作者们设计了一种策略,在所有阶段以交叉块的方式使用SE层,从而在最小的延迟增量下最大化准确率的提升,这一步将top-1准确率提升到77.4%,同时延迟降低到0.87ms。【这一点其实百度在很早前就已经做过实验比对得到过这个结论了,SE 层放置在靠近深层的地方效果好】

网络架构

最终,通过整合上述改进策略,我们便得到了模型RepViT的整体架构,该模型有多个变种,例如RepViT-M1/M2/M3。同样地,不同的变种主要通过每个阶段的通道数和块数来区分。

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

实验

图像分类

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

检测与分割

1.3ms耗时!清华最新开源移动端神经网络架构 RepViT

总结

本文通过引入轻量级 ViT 的架构选择,重新审视了轻量级 CNNs 的高效设计。这导致了 RepViT 的出现,这是一种新的轻量级 CNNs 家族,专为资源受限的移动设备设计。在各种视觉任务上,RepViT 超越了现有的最先进的轻量级 ViTs 和 CNNs,显示出优越的性能和延迟。这突显了纯粹的轻量级 CNNs 对移动设备的潜力。

以上就是1.3ms耗时!清华最新开源移动端神经网络架构 RepViT的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/847975.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
如何为iPhone15ProMax获取固件?快速下载步骤解析
上一篇 2025年11月27日 16:16:31
荣耀 Magic7 RSR 保时捷设计手机发布:骁龙 8 至尊版、200MP 超感光潜望长焦,7999 元起
下一篇 2025年11月27日 16:16:32

相关推荐

  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • CSS技巧:在复杂悬停效果中确保图像始终可见

    CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见CSS技巧:在复杂悬停效果中确保图像始终可见

    本教程探讨如何在包含悬停效果的CSS卡片布局中,确保图像始终显示在最顶层而不被裁剪或遮挡。通过调整HTML结构,利用CSS的position和z-index属性,以及引入pointer-events,我们将解决图像被overflow: hidden和扩展叠加层遮盖的问题,实现复杂的视觉交互效果。 在…

    2026年5月10日 用户投稿
    000
  • python如何捕获所有类型的异常_python try except捕获所有异常的方法

    答案:捕获所有异常推荐使用except Exception as e,可捕获常规错误并记录日志,避免影响程序正常退出;需拦截系统信号时才用except BaseException as e。 在Python中,要捕获所有类型的异常,最常见且推荐的方法是使用 except Exception as e…

    2026年5月10日
    000
  • html自定义滚动条代码怎么写_html自定义滚动条代码编写指南

    html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南html自定义滚动条代码怎么写_html自定义滚动条代码编写指南

    自定义HTML滚动条可通过CSS的::-webkit-scrollbar伪元素实现,适用于Webkit内核浏览器;首先设置整体滚动条宽高,再定义轨道、滑块样式及悬停效果,可针对特定容器应用;为提升兼容性,Firefox可使用scrollbar-width和scrollbar-color属性适配,IE…

    2026年5月10日 用户投稿
    000
  • Angular mat-tab 高度自适应与布局优化指南

    本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源,并提供使用CSS深度选择器(::ng-deep)精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案,确保组件在指定布局下…

    2026年5月10日
    000
  • CSS Grid 实现表格列等宽布局

    本文旨在提供一种无需指定表格总宽度和各列宽度,即可实现表格列等宽布局的方案。通过利用 CSS Grid 布局的特性,可以使每列的宽度自动适应内容,并保持所有列的宽度一致,从而避免使用 JavaScript 动态计算和设置列宽,实现更简洁高效的布局方式。 在传统的 HTML 表格中,实现列等宽布局通常…

    2026年5月10日
    100
  • Flexbox布局中带标签文本域的重叠问题及解决方案

    本文探讨了在使用css flexbox布局和spectre.css框架时,为文本域添加标签可能导致内容重叠的问题。核心原因在于父容器固定高度与子元素`height: 100%`的冲突,导致文本域未能正确计算标签所占空间。解决方案是移除父容器的固定高度,并为文本域设置响应式的视口高度(`vh`)值,确…

    2026年5月10日
    300
  • 创建自动轮播图:JavaScript 实现指南

    创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南创建自动轮播图:JavaScript 实现指南

    本文旨在帮助开发者构建一个自动轮播图,解决手动切换和自动播放的问题。我们将提供完整的 HTML、CSS 和 JavaScript 代码示例,并详细解释实现原理,确保即使是 JavaScript 新手也能轻松掌握。重点在于理解 JavaScript 如何控制轮播图的自动切换和手动控制逻辑,以及如何优化…

    2026年5月10日 用户投稿
    000
  • HTML文本排版常见问题有哪些_HTML文本排版常见问题如何快速排查与解决

    空白符处理不当导致格式丢失,可用标签或CSS的white-space属性解决;2. 段落间距不一致需重置margin并使用CSS Reset;3. 字体异常应检查font-family备选和@font-face加载;4. 文本溢出需设置word-wrap、text-overflow等控制换行与截断。…

    2026年5月10日
    000
  • 如何解决鼠标悬浮时背景图标被背景颜色遮挡的问题?

    巧妙解决鼠标悬停时图标被遮挡的问题 网站或应用中,鼠标悬停效果能提升用户体验。然而,有时悬停时背景图标会被新的背景颜色遮盖。本文通过案例分析,讲解如何解决此问题。 问题描述 一个搜索框,右侧图标在鼠标悬停时背景颜色改变,但图标却被新背景色遮挡: 相关CSS代码: .tx_mmenu_together…

    用户投稿 2026年5月10日
    000
  • 使用 Go 语言开发 iOS 应用

    本文介绍了如何使用 Go 语言开发 iOS 应用程序。通过 Go iOS 项目,我们可以将 Go 代码编译为 ARM Mach-O 二进制文件,并与 iOS 静态库链接,最终构建出可以在 iPhone 上运行的应用。本文将详细介绍所需的步骤,并提供关键资源,帮助开发者入门 Go iOS 开发。 Go…

    2026年5月10日
    000
  • 使用 CSS 实现图片悬停文字提示

    使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示使用 CSS 实现图片悬停文字提示

    本教程详细介绍了如何使用 html 的 ` ` 和 “ 元素结合 css 实现图片悬停显示文本的交互效果。通过巧妙运用 css 动画和变换属性,当用户鼠标悬停在图片上时,图片会缩小、模糊,同时预设的文本内容平滑地淡入显示,从而提升用户界面的动态性和信息提示的友好性。 引言:图片悬停效果的重要性 在…

    2026年5月10日 用户投稿
    200
  • CSS中如何使用”…”结尾省略溢出内容?

    css如何处理溢出内容:使用”…”作为结尾 当文本内容超出了容器限制时,需要进行处理以保证内容的正确显示。css提供了多种方法来处理溢出内容,其中一种就是使用 “…” 作为结尾来进行文本省略。 针对给定的html代码,我们需要对…

    2026年5月10日
    000
  • 行内块元素设置 overflow: hidden 后为什么会错位?

    行内块元素错位显示原因解析 在设置了 overflow: hidden 属性后,两个 inline-block 元素可能会出现错位显示。这是因为 overflow: hidden 影响了行内块元素的基线位置。 在行内块布局中,元素的基线与排版框的底部对齐。当一个行内块元素设置 overflow: h…

    2026年5月10日
    000
  • PHP框架的社区支持存在哪些痛点?

    php框架社区支持的痛点包括:文档匮乏或过时(1)、响应缓慢(2)、社区分散(3)。实战案例表明这些痛点可能导致开发进度受阻。改善方法包括:提供全面的文档、建立响应迅速的官方论坛、创建一个集成的社区平台。 PHP 框架社区支持存在的痛点及实战案例 PHP 框架为 Web 开发提供了强大的基础,但其社…

    2026年5月10日
    100
  • PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式,难以应对变种攻击;而机器学习通过分析代码的词法、句法、语义和数据流特征,构建抽象的行为模型,可识别未见过但模式相似的恶意代码。例如,即便攻击者使用编码或混淆技术,只要其数据流向敏感函数(如eval、system)的行为…

    2026年5月10日 用户投稿
    000
  • 为什么在 Chrome 访问某东移动站点时,滑块验证总是不通过?如何解决?

    Chrome访问京东移动端滑块验证失败的解决方法 使用Chrome浏览器访问京东移动端时,经常遇到滑块验证无法通过的问题。这主要是因为Chrome的默认User Agent被识别为桌面端,而非移动端。京东移动端为了防止自动化程序访问,对非移动端请求设置了严格的验证机制。 问题原因:User Agen…

    2026年5月10日
    000
  • HTML文本溢出DIV容器如何判断及处理?

    巧妙应对html文本溢出div容器 在HTML页面中,肉眼很难直接判断文本是否溢出了DIV容器。本文将介绍使用JavaScript和CSS两种方法来检测并处理这种情况,提升用户体验。 JavaScript检测方法 利用JavaScript的scrollHeight和offsetHeight属性,我们…

    2026年5月10日
    100
  • html如何固定_固定HTML元素位置使其不随滚动移动【滚动】

    要使HTML元素始终固定在视口指定位置,应使用position: fixed;若需滚动至阈值后固定则用position: sticky;兼容旧浏览器可用JavaScript动态设置top;响应式场景可结合媒体查询调整fixed方位;还需预留空间避免遮挡内容。 如果您希望HTML页面中的某个元素始终保…

    2026年5月10日
    000
  • 如何写js

    JavaScript 是一种用于为网页提供交互性、动画和动态行为的编程语言。它涉及使用变量、运算符和条件,编写函数和对象,设置事件处理程序。最佳实践包括使用命名空间、遵循命名约定、进行错误处理。官方文档、在线课程和社区支持有助于学习 JavaScript 基础。示例代码展示了变量定义、条件分支、函数…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信