1.3ms耗时！清华最新开源移动端神经网络架构 RepViT

程序猿 • 2025年11月27日 16:16:31 • 用户投稿 • 阅读 1

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2307.09283

代码地址：https://github.com/THU-MIG/RepViT

RepViT 在移动端 ViT 架构中表现出色，展现出显著的优势。接下来，我们将探讨本研究的贡献所在。

文中提到，轻量级 ViTs 通常比轻量级 CNNs 在视觉任务上表现得更好，这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而，轻量级 ViTs 和轻量级 CNNs 之间的架构差异尚未得到充分研究。在这项研究中，作者们通过整合轻量级 ViTs 的有效架构选择，逐步提升了标准轻量级 CNN（特别是 MobileNetV3 的移动友好性。这便衍生出一个新的纯轻量级 CNN 家族的诞生，即RepViT。值得注意的是，尽管 RepViT 具有 MetaFormer 结构，但它完全由卷积组成。实验结果表明，RepViT 超越了现有的最先进的轻量级 ViTs，并在各种视觉任务上显示出优于现有最先进轻量级ViTs的性能和效率，包括 ImageNet 分类、COCO-2017 上的目标检测和实例分割，以及 ADE20k 上的语义分割。特别地，在ImageNet上，RepViT 在 iPhone 12 上达到了近乎 1ms 的延迟和超过 80% 的Top-1 准确率，这是轻量级模型的首次突破。

好了，接下来大家应该关心的应该时“如何设计到如此低延迟但精度还很6的模型”出来呢？

方法

再 ConvNeXt 中，作者们是基于 ResNet50 架构的基础上通过严谨的理论和实验分析，最终设计出一个非常优异的足以媲美 Swin-Transformer 的纯卷积神经网络架构。同样地，RepViT也是主要通过将轻量级 ViTs 的架构设计逐步整合到标准轻量级 CNN，即MobileNetV3-L，来对其进行针对性地改造（魔改）。在这个过程中，作者们考虑了不同粒度级别的设计元素，并通过一系列步骤达到优化的目标。

训练配方的对齐

在论文中，新引入了一个用于衡量移动设备上延迟的指标，并确保训练策略与目前流行的轻量级 ViTs 保持一致。这一举措的目的是为了保证模型训练的一贯性，其中涉及到延迟度量和训练策略的调整两个关键概念。

延迟度量指标

为了更准确地衡量模型在真实移动设备上的性能，作者选择了直接测量模型在设备上的实际延迟，以此作为基准度量。这个度量方法不同于之前的研究，它们主要通过FLOPs或模型大小等指标优化模型的推理速度，这些指标并不总能很好地反映在移动应用中的实际延迟。

训练策略的对齐

这里，将 MobileNetV3-L 的训练策略调整以与其他轻量级 ViTs 模型对齐。这包括使用 AdamW 优化器【ViTs 模型必备的优化器】，进行 5 个 epoch 的预热训练，以及使用余弦退火学习率调度进行 300 个 epoch 的训练。尽管这种调整导致了模型准确率的略微下降，但可以保证公平性。

块设计的优化

接下来，基于一致的训练设置，作者们探索了最优的块设计。块设计是 CNN 架构中的一个重要组成部分，优化块设计有助于提高网络的性能。

分离 Token 混合器和通道混合器

这块主要是对 MobileNetV3-L 的块结构进行了改进，分离了令牌混合器和通道混合器。原来的 MobileNetV3 块结构包含一个 1×1 扩张卷积，然后是一个深度卷积和一个 1×1 的投影层，然后通过残差连接连接输入和输出。在此基础上，RepViT 将深度卷积提前，使得通道混合器和令牌混合器能够被分开。为了提高性能，还引入了结构重参数化来在训练时为深度滤波器引入多分支拓扑。最终，作者们成功地在 MobileNetV3 块中分离了令牌混合器和通道混合器，并将这种块命名为 RepViT 块。

降低扩张比例并增加宽度

在通道混合器中，原本的扩张比例是 4，这意味着 MLP 块的隐藏维度是输入维度的四倍，消耗了大量的计算资源，对推理时间有很大的影响。为了缓解这个问题，我们可以将扩张比例降低到 2，从而减少了参数冗余和延迟，使得 MobileNetV3-L 的延迟降低到 0.65ms。随后，通过增加网络的宽度，即增加各阶段的通道数量，Top-1 准确率提高到 73.5%，而延迟只增加到 0.89ms！

宏观架构元素的优化

在这一步，本文进一步优化了MobileNetV3-L在移动设备上的性能，主要是从宏观架构元素出发，包括 stem，降采样层，分类器以及整体阶段比例。通过优化这些宏观架构元素，模型的性能可以得到显著提高。

浅层网络使用卷积提取器

图片

ViTs 通常使用一个将输入图像分割成非重叠补丁的 “patchify” 操作作为 stem。然而，这种方法在训练优化性和对训练配方的敏感性上存在问题。因此，作者们采用了早期卷积来代替，这种方法已经被许多轻量级 ViTs 所采纳。对比之下，MobileNetV3-L 使用了一个更复杂的 stem 进行 4x 下采样。这样一来，虽然滤波器的初始数量增加到24，但总的延迟降低到0.86ms，同时 top-1 准确率提高到 73.9%。

更深的下采样层

在 ViTs 中，空间下采样通常通过一个单独的补丁合并层来实现。因此这里我们可以采用一个单独和更深的下采样层，以增加网络深度并减少由于分辨率降低带来的信息损失。具体地，作者们首先使用一个 1×1 卷积来调整通道维度，然后将两个 1×1 卷积的输入和输出通过残差连接，形成一个前馈网络。此外，他们还在前面增加了一个 RepViT 块以进一步加深下采样层，这一步提高了 top-1 准确率到 75.4%，同时延迟为 0.96ms。

更简单的分类器

在轻量级 ViTs 中，分类器通常由一个全局平均池化层后跟一个线性层组成。相比之下，MobileNetV3-L 使用了一个更复杂的分类器。因为现在最后的阶段有更多的通道，所以作者们将它替换为一个简单的分类器，即一个全局平均池化层和一个线性层，这一步将延迟降低到 0.77ms，同时 top-1 准确率为 74.8%。

整体阶段比例

阶段比例代表了不同阶段中块数量的比例，从而表示了计算在各阶段中的分布。论文选择了一个更优的阶段比例 1:1:7:1，然后增加网络深度到 2:2:14:2，从而实现了一个更深的布局。这一步将 top-1 准确率提高到 76.9%，同时延迟为 1.02 ms。

微观设计的调整

接下来，RepViT 通过逐层微观设计来调整轻量级 CNN，这包括选择合适的卷积核大小和优化挤压-激励（Squeeze-and-excitation，简称SE）层的位置。这两种方法都能显著改善模型性能。

卷积核大小的选择

众所周知，CNNs 的性能和延迟通常受到卷积核大小的影响。例如，为了建模像 MHSA 这样的远距离上下文依赖，ConvNeXt 使用了大卷积核，从而实现了显著的性能提升。然而，大卷积核对于移动设备并不友好，因为它的计算复杂性和内存访问成本。MobileNetV3-L 主要使用 3×3 的卷积，有一部分块中使用 5×5 的卷积。作者们将它们替换为3×3的卷积，这导致延迟降低到 1.00ms，同时保持了76.9%的top-1准确率。

SE 层的位置

自注意力模块相对于卷积的一个优点是根据输入调整权重的能力，这被称为数据驱动属性。作为一个通道注意力模块，SE层可以弥补卷积在缺乏数据驱动属性上的限制，从而带来更好的性能。MobileNetV3-L 在某些块中加入了SE层，主要集中在后两个阶段。然而，与分辨率较高的阶段相比，分辨率较低的阶段从SE提供的全局平均池化操作中获得的准确率提升较小。作者们设计了一种策略，在所有阶段以交叉块的方式使用SE层，从而在最小的延迟增量下最大化准确率的提升，这一步将top-1准确率提升到77.4%，同时延迟降低到0.87ms。【这一点其实百度在很早前就已经做过实验比对得到过这个结论了，SE 层放置在靠近深层的地方效果好】

网络架构

最终，通过整合上述改进策略，我们便得到了模型RepViT的整体架构，该模型有多个变种，例如RepViT-M1/M2/M3。同样地，不同的变种主要通过每个阶段的通道数和块数来区分。

实验

图像分类

检测与分割

总结

本文通过引入轻量级 ViT 的架构选择，重新审视了轻量级 CNNs 的高效设计。这导致了 RepViT 的出现，这是一种新的轻量级 CNNs 家族，专为资源受限的移动设备设计。在各种视觉任务上，RepViT 超越了现有的最先进的轻量级 ViTs 和 CNNs，显示出优越的性能和延迟。这突显了纯粹的轻量级 CNNs 对移动设备的潜力。

以上就是1.3ms耗时！清华最新开源移动端神经网络架构 RepViT的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/847975.html

iphone overflow 开源架构神经网络

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何为iPhone15ProMax获取固件？快速下载步骤解析

上一篇 2025年11月27日 16:16:31

荣耀 Magic7 RSR 保时捷设计手机发布：骁龙 8 至尊版、200MP 超感光潜望长焦，7999 元起

下一篇 2025年11月27日 16:16:32

好文分享

PC端H5项目如何实现适配：流式布局、响应式设计和两套样式？

PC端的适配方案及PC与H5兼顾的实现方案探讨在开发H5项目时，常用的屏幕适配方案是postcss-pxtorem或postcss-px-to-viewport，通常基于iPhone 6标准作为设计稿。但对于PC端网项目，处理不同屏幕大小需要其他方案。 PC端屏幕适配方案 PC端屏幕适配一般采用流…

程序猿
2025年12月24日
10000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

微信小程序文本省略后如何避免背景色溢出？

去掉单行文本溢出多余背景色在编写微信小程序时，如果希望文本超出宽度后省略显示并在末尾显示省略号，但同时还需要文本带有背景色，可能会遇到如下问题：文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替，但其背景色依然存在。要解决这个问题，可以采用以下方法：给 text 元素添加…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

Flex 布局左右同高怎么实现？

flex布局左右同高在flex布局中，左右布局的元素高度不一致时，想要让边框延伸到最大高度，可以采用以下方法：基于当前结构的方法：给.rht和.lft盒子添加： .rht { height: min-content;} 这样可以使弹性盒子被子盒子内容撑开。使用javascript获取.rht…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
1000
好文分享

如何去除带有背景色的文本单行溢出时的多余背景色？

带背景色的文字单行溢出处理：去除多余的背景色当一个带有背景色的文本因单行溢出而被省略时，可能会出现最后一个背景色块多余的情况。针对这种情况，可以通过以下方式进行处理：在示例代码中，问题在于当文本溢出时，overflow: hidden 属性会导致所有文本元素(包括最后一个)都隐藏。为了解决该问题…

程序猿
2025年12月24日
0000
好文分享

如何解决 CSS 中文本溢出时背景色也溢出的问题？

文字单行溢出省略号时，去掉多余背景色的方法在使用 css 中的 text-overflow: ellipsis 属性时，如果文本内容过长导致一行溢出，且文本带有背景色，溢出的部分也会保留背景色。但如果想要去掉最后多余的背景色，可以采用以下方法：给 text 元素添加一个 display: inl…

程序猿
2025年12月24日
2000
好文分享

如何用CSS实现文本自动展开，并在超出两行后显示展开下箭头？

CSS实现文本自动展开的难题一段文本超出两行后自动溢出的效果，需要添加一个展开下箭头指示用户有隐藏内容。实现这一需求时，面临以下难题：判断是否超过两行溢出取消省略号，用展开下箭头代替解决思路：参考大佬文章这个问题的解决方法，可以参考本站大佬的文章CSS 实现多行文本“展开收起”，该文章正是针…

程序猿
2025年12月24日
0000
好文分享

如何去除单行溢出文本中的冗余背景色？

带背景色的文字单行溢出省略号，如何去除冗余背景色？在使用 css 样式时，为单行溢出文本添加背景色可能会导致最后一行文本中的冗余背景色。为了解决这个问题，可以为文本元素添加额外的 css 样式： text { display: inline-block;} 添加这个样式后，文字截断将基于文本块进行…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS 实现纵向文字溢出省略号？

纵向文字溢出的省略号处理方案对于纵向展示的文字，传统的横向溢出省略方案（使用 overflow: hidden; text-overflow: ellipsis;）不适用。若需在纵向展示时实现省略号，可考虑以下 css 解决方案：垂直排版通过将文字排版模式改为垂直，可以解决纵向溢出的问题。使用…

程序猿
2025年12月24日
0000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

图片轮播效果实现的最佳方案是什么？

实现图片切换效果的妙招在浏览网站时，你可能会遇到引人注目的图片轮播效果，想要尝试自己实现。然而，实现效果可能并不令人满意，想知道问题的根源吗？问题在于你使用的是标签，直接改变图片位置，这会导致图像质量降低。更好的办法是使用元素并使用 css background-image 属性，同时改变 …

程序猿
2025年12月24日
0000
好文分享

动画滚动表格时，如何防止表格内容超出表头继续滚动？

动画滚动效果时表格内容超出表头你给出了一个带有自动滚动的表格，但发现表格中的行在超过表头时仍然会继续滚动。要解决这个问题，需要对你的 css 代码进行一些调整。以下是解决你问题的 css 代码： @keyframes table { 0% { transform: translateY(0); …

程序猿
2025年12月24日
0000
图片轮播效果实现问题：使用 transform: translateX 实现图片切换，为何效果不理想？

图片切换效果实现问题：本想实现一个常见的图片轮播效果，却多次碰壁，请指教问题所在。效果展示：原样式自实现效果代码： .slider { width: 700px; height: 400px; overflow: hidden; position: relative; } .slider-…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

表格自动滚动时，tbody溢出表头怎么办？

表格自动滚动时，tbody溢出表头？当使用动画实现表格自动滚动时，通常需要确保tbody的内容在滚动过程中不会超出表头。但是，在遇到tbody内容超过表头滚动的问题时，可以考虑以下解决方法：在代码中定位table的样式，添加overflow: hidden;属性。这将隐藏超出table范围的子元…

程序猿
2025年12月24日
0000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000