谷歌将视觉迁移模型参数扩展到220亿,自ChatGPT火爆后研究者集体行动

与自然语言处理类似,对预训练视觉主干的迁移提高了模型在各种视觉任务上的性能。更大的数据集、可扩展的架构和新的训练方法都推动了模型性能的提升。

然而,视觉模型仍然远远落后于语言模型。具体来说,迄今为止最大的视觉模型 ViT 只有 4B 参数,而入门级语言模型通常超过 10B 参数,更别说具有 540B 参数的大型语言模型。

为了探索 AI 模型的性能极限,Google Research 最近在 CV 领域的一项研究,率先将 Vision Transformer 参数量扩展到了 22B,提出 ViT-22B,与之前类似的模型参数量 4B 相比,可以说这是迄今为止最大的稠密型 ViT 模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

论文地址:https://arxiv.org/pdf/2302.05442.pdf

对比之前最大的 ViT- G 和 ViT-e,表 1 给出了比较结果,由下表可得,ViT-22B 主要是扩展了模型的宽度,使得参数量更大,深度和 ViT-G 一样。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

当前的 ViT 大模型

正如这位知乎网友所说,难道是谷歌在 ChatGPT 上输了一局,势必要在 CV 领域争口气?

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

如何做到的?原来研究早期,他们发现在扩展 ViT 的过程中,出现了训练不稳定性,并且可能会带来架构变化。然后研究人员仔细设计模型,并且以前所未有的效率来实现模型并行训练。ViT-22B 的质量是通过一套全面的任务来评估的,从(少样本)分类到密集输出任务,在这些任务中,它达到或超过了当前 SOTA 水平。例如,即使用作冻结的视觉特征提取器,ViT-22B 在 ImageNet 上的准确率也达到了 89.5%。通过训练 text tower 来匹配这些视觉特征,它在 ImageNet 上实现了 85.9% 的零样本设置准确率。此外,该模型可以看作是一个教师,用作蒸馏目标,研究人员训练了一个 ViT-B 学生模型,在 ImageNet 上的准确率为 88.6%,达到了此类规模模型上 SOTA 水平。

模型架构

ViT-22B 是一种基于 Transformer 的编码器模型,类似于原始 Vision Transformer 架构,但包含以下三个主要修改,以提高效率和大规模训练的稳定性:并行层、查询 / 键(QK)归一化和 omitted biases。

并行层。正如 Wang 和 Komatsuzaki 研究所述,该研究设计了一个 Attention 和 MLP 并行结构:

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

这可以通过组合 MLP 和注意力块的线性投影来实现额外的并行化。值得注意的是,用于查询 / 键 / 值投影的矩阵乘法和 MLP 的第一线性层被融合到一个单独的操作中,对于 MLP 的注意力外投影和第二层线性层也是如此。

QK 归一化。训练大模型的一个困难是模型的稳定性,在将 ViT 扩展的过程中,研究人员发现在几千轮的 step 后训练损失呈发散性。特别是在 8B 参数的模型中这种现象尤为突出。为了稳定模型训练,研究人员采用 Gilmer 等人的方法,在点积注意力计算之前对查询和键应用 LayerNorm 归一化操作,以提升训练的稳定性。具体来说,注意力权重计算为:

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

omitted biases。在 PaLM 之后,偏置项从 QKV 投影中移除,并且所有的 Layernorm 都在没有偏置的情况下应用,从而提高了加速器的利用率 (3%),且质量没有下降。然而,与 PaLM 不同的是,研究人员对 MLP 密集层使用了偏置项,即便如此,这种方式在兼顾质量的同时,速度没有下降。 

图 2 展示了一个 ViT-22B 编码器块。嵌入层在原有 ViT 的基础上进行了 patch 提取、线性投影和添加位置嵌入等操作。研究人员使用多头注意力池化来聚合头中的每个 token 表示。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

ViT-22B 使用 14 × 14 的 patch,图像分辨率为 224 × 224。ViT-22B 采用了一种学习到的一维位置嵌入。在对高分辨率图像进行微调期间,研究人员根据预训练的位置嵌入在原始图像中的位置执行二维插值。

训练基础设施与效率

ViT-22B 使用 FLAX 库,实现方式是 JAX,并在 Scenic 中构建。它同时利用了模型和数据并行性。值得一提的是,研究人员使用了 jax. xmap API,它提供了对所有中间体的分片(例如权重和激活)以及芯片间通信的显式控制。研究人员将芯片组织成大小为 t × k 的 2D 逻辑网格,其中 t 是数据平行轴的大小,k 是模型轴的大小。然后,对于 t 组中的每个组,k 个设备获得相同批次的图像,每个设备只保留 1/k 的激活,并负责计算所有线性层输出的 1/k(详细内容如下)。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

图 3:异步并行线性操作(y = Ax):跨设备的重叠通信和计算的模型并行矩阵乘法。

异步并行线性操作。为了最大限度地提高吞吐量,必须考虑计算和通信。也就是说,如果希望这些操作在分析上等效于未分片的情况,就必须尽可能少地进行通信,理想情况下让它们重叠,这样就可以保持矩阵乘法单元(FLOP 的大部分容量所在)始终处于繁忙状态。

参数分片。该模型在第一个轴上是数据并行的。每个参数可以在这个轴上完全复制,也可以让每个设备保存它的一个块。研究人员选择从模型参数中分割一些大张量,以便能够拟合更大的模型和批量大小。

使用这些技术,ViT-22B 在 TPUv4 上训练期间,每个核每秒处理 1.15k token。ViT-22B 的模型 flops 利用率(MFU)为 54.9%,表明硬件的使用非常有效。请注意,PaLM 报告的 MFU 为 46.2%,而研究人员在相同硬件上为 ViT-e(仅数据并行)测量的 MFU 为 44.0%。

实验结果

实验探究了 ViT-22B 用于图像分类的评估结果。

表 2 结果显示,ViT-22B 在各种指标上仍有显著的改善。此外,研究表明,像 ViT-22B 这样的大型模型的 Linear probing 可以接近或超过具有高分辨率的小型模型的 full fine-tuning 性能,通常成本更小、更容易做到。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

百灵大模型 百灵大模型

蚂蚁集团自研的多模态AI大模型系列

百灵大模型 177 查看详情 百灵大模型

研究进一步在细粒度分类数据集 iNaturalist 2017 上测试线性可分离性,将 ViT-22B 与其他 ViT 变体进行比较。研究测试了 224px 和 384px 的输入分辨率。结果如图 4。研究观察到 ViT-22B 明显优于其他 ViT 变体,特别是在标准的 224px 输入分辨率下。这表明 ViT-22B 中大量的参数对于从图像中提取详细信息是有用的。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

表 3 显示了 ViT-22B 对 CLIP、ALIGN、BASIC、CoCa、LiT 模型的零样本迁移结果。表 3 底部比较了三个 ViT 模型性能。

在所有的 ImageNet 测试集中,ViT-22B 取得了相当或更好的结果。值得注意的是,ObjectNet 测试集上的零样本结果与 ViT 模型大小高度相关。最大的 ViT-22B 将新的 SOTA 设置在具有挑战性的 ObjectNet 测试集中。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

Out-of-distribution (OOD)。研究构建了一个从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同分布外数据集的标签映射,即 ObjectNet、ImageNet-v2、ImageNet- R 和 ImageNet- A。

目前可以确认的结果是,与 ImageNet 上的改进一致,扩展模型增加了分布外性能。这适用于只看过 JFT 图像的模型,以及在 ImageNet 上进行微调的模型。在这两种情况下,ViT-22B 在更大的模型上都延续了 OOD 性能更好的趋势(图 5,表 11)。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

此外,研究人员还研究了 ViT-22B 模型在语义分割和单目深度估计任务中捕获的几何和空间信息质量。

语义分割。研究人员在三个基准上评估 ViT-22B 作为语义分割主干:ADE20K、Pascal Context 和 Pascal VOC。从表 4 可以看出,当只看到少量分割掩码时,ViT-22B 主干迁移效果更好。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

单目深度估计。表 5 总结了研究的主要发现。从最上面的行(DPT 解码器)中可以观察到,与不同的主干相比,使用 ViT-22B 特性产生了最好的性能(在所有指标上)。通过将 ViT-22B 主干与 ViT-e(一个较小的模型,但在与 ViT-22B 相同的数据上进行训练)进行比较,研究发现扩展架构可以提高性能。

此外,将 ViT-e 主干与 ViT-L(与 ViT-e 类似的架构,但训练的数据更少)进行比较,研究发现这些改进也来自于扩展训练前的数据。这些发现表明,更大的模型和更大的数据集都有助于提高性能。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

该研究还在视频数据集上进行了探索。表 6 展示了在 Kinetics 400 和 Moments in Time 数据集上的视频分类结果,表明可以使用冻结的主干实现具有竞争力的结果。研究首先与 ViT-e 进行比较,ViT-e 拥有最大的先验视觉主干模型,由 40 亿个参数组成,并且也在 JFT 数据集上进行训练。我们观察到更大的 ViT-22B 模型在 Kinetics 400 上提高了 1.5 分,在 Moments in Time 上提高了 1.3 分。

最后研究注意到,通过完整的端到端微调,还有进一步改进的空间。

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

更多技术细节请参阅原论文。

以上就是谷歌将视觉迁移模型参数扩展到220亿,自ChatGPT火爆后研究者集体行动的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/554142.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
王者荣耀道聚城11周年答题答案是什么-王者荣耀道聚城11周年答题答案大全
上一篇 2025年11月9日 21:36:02
如何根据项目需求选择Java框架
下一篇 2025年11月9日 21:36:09

相关推荐

  • CEX充提币:中心化交易所使用技巧

    在加密货币交易的浩瀚宇宙中,选择一家可靠、高效且安全便捷的中心化交易所(cex)是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言,cex不仅是进入市场的大门,更是其资产的守护者。而对于经验丰富的交易者来说,深入掌握cex的充提币技巧,则意味着能够更灵活地调配资金,抓住稍纵即逝的市场机遇…

    用户投稿 2026年5月10日
    100
  • 欧易交易所 OKX全球主流交易平台(官方网站)

    欧易(OKX)是一款全球领先的数字资产服务平台,为用户提供币币、杠杆、期权/交割/永续合约、DEX交易、余币宝、DeFi挖 矿、借贷等多元化的产品矩阵,覆盖超过200个国家和地区,拥有千万级用户量,致力于为全球用户提供一站式的数字资产服务。 欧易交易所官方网站入口 欧易全球官方网址是: 欧易OKX下…

    2026年5月10日
    000
  • HTML地理位置怎么优化_本地SEO代码优化技巧

    HTML地理位置优化需使用Schema.org标记并确保信息一致,结合关键词、地图嵌入和本地内容提升本地搜索排名。 HTML地理位置优化,简单来说,就是让你的网站在本地搜索结果中更容易被找到。核心在于告诉搜索引擎你的网站与特定地理位置相关,并提升用户体验。 解决方案 使用Schema.org标记: …

    2026年5月10日
    200
  • 欧易官方iOS版下载_苹果手机欧易APP官方入口

    欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口

    想要进入数字资产的世界,选择一个安全可靠的平台至关重要。本文将作为您的向导,详细拆解欧易(okx)交易所从入门到上手的全部流程,包括官方渠道访问、app安全下载安装,以及新用户注册的每一步。跟随本指南,轻松开启您的交易之旅。 第一步:访问欧易OKX官方网站 欧易官方网址: 欧易官方app: 1、请通…

    2026年5月10日 用户投稿
    000
  • 币安Binance正版官网地址 币安Binance安全登录官网

    如果你想访问币安Binance正版官网并进行安全登录,那么掌握正确的网址和安全操作方法非常关键。本文将为你详细介绍如何访问官方平台,以及在登录过程中需要注意的安全细节,帮助你更安心地管理加密货币资产。 官网入口: APP下载: 官网访问方法 1、确认网址:在访问币安Binance官网时,一定要输入官…

    2026年5月10日
    100
  • 2025欧意交易所app官方下载 欧意 v6.138.1 最新版app安卓版

    欧意交易所App是一款广受欢迎的数字资产交易平台,致力于为全球用户提供安全、便捷、专业的加密货币交易服务。平台支持多种主流数字货币的交易,界面友好,功能强大,是您管理和增值数字资产的理想选择。 欧易官网入口: 欧易官网直链下载: 下载步骤 1、点击上方提供的官方下载链接,浏览器将自动开始下载欧意交易…

    2026年5月10日
    000
  • 币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安(Binance)是全球领先的数字资产交易平台之一,为用户提供安全、稳定、便捷的数字货币交易服务。它支持多种主流及新兴的数字资产,并提供丰富的交易工具和功能。 本文将为您提供币安2025安卓最新版本的官方下载入口,您只需点击文中给出的下载链接,即可获取官方正版app安装包,开启您的数字资产之旅。…

    2026年5月10日 用户投稿
    000
  • 开发基于ChatGPT的自动写诗系统:Python让诗意流淌

    开发基于ChatGPT的自动写诗系统:Python让诗意流淌 自古以来,诗歌一直是人类表达感情和思想的一种重要方式。然而,写好一首优美的诗歌并不是每个人都能做到的,特别是对于那些没有诗歌创作经验的人来说。但是,现代技术的发展让自动写诗成为可能,人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

    2026年5月10日
    000
  • 谷歌搜索的鼠标悬停阴影效果是如何实现的?

    谷歌搜索悬停阴影效果解析 在谷歌搜索页面中,当鼠标悬停在搜索框或按钮上时,会出现一个微妙的边缘阴影。想要了解这一效果的实现原理,许多开发者可能率先想到使用 css。 css 探索 遗憾的是,在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。 浏览器开发者工具助力 使用浏览…

    2025年12月24日
    000
  • 如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    谷歌搜索框鼠标悬停时边缘阴影效果实现 对于谷歌搜索框在鼠标悬停时的边缘阴影效果,你可能找不到直接的 css 代码,但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果,它的语法如下: box-shadow: h-offset v-offset blu…

    2025年12月24日
    800
  • 如何实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    如何实现谷歌搜索框鼠标悬停时的边缘阴影效果? 在谷歌搜索中,当鼠标悬停在搜索框和按钮上时,会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为: box-shadow:…

    2025年12月24日
    600
  • 鼠标悬停时,谷歌搜索元素的阴影效果是如何实现的?

    鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的 该效果是通过 css 的 box-shadow 属性实现的,该属性用于在元素周围创建阴影效果。 当鼠标悬停在元素上时,应用 :hover 伪类,并添加 box-shadow 属性,为元素指定阴影效果。 下面是一个示例 css 代码,它给谷歌搜索框…

    2025年12月24日
    500
  • CSS 砌体 Catness

    css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3,也称为 css masonry 布局。 theo 制作了一段视频,介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。 所有这些让我很高兴尝试 css 砌体! webkit…

    用户投稿 2025年12月24日
    000
  • 谷歌浏览器重命名文件后缩进消失,火狐浏览器却不会,这是为什么?

    谷歌浏览器重命名文件后缩进消失,而火狐浏览器不会 在谷歌浏览器中使用 WEB IDE 时遇到一个奇怪的问题。当重命名目录树中的文件后,目录树左侧的缩进消失了。但是,在开发者工具中发现导致缩进消失的其实是设置了 margin-right: -17px,而不是正常的 margin-left: -17px…

    2025年12月24日
    000
  • 为什么重命名文件后,谷歌浏览器和火狐浏览器的目录树缩进表现不同?

    为什么在重命名文件后,谷歌浏览器和火狐浏览器的目录树表现不同? 一位开发者遇到了一个令人迷惑的问题:在谷歌浏览器中的 WEB IDE 中重命名文件时,目录树中的缩进会消失。经过检查,开发者发现目录树元素有一个 margin-right:-17px 样式,这与预期中 margin-left:-17px…

    2025年12月24日
    500
  • 谷歌浏览器和火狐浏览器在重命名文件时,为何表现出不同的缩进差异?

    浏览器在重命名文件时表现差异的原因 当你使用谷歌浏览器中的 WEB IDE 重命名文件时,你遇到的问题是:整个目录树向左移动,缩进消失。同时,你发现该元素设置了 margin-right: -17px,但它应该设置为 margin-left: -17px。 这个问题的原因是因为谷歌浏览器在处理 CS…

    2025年12月24日
    700
  • 谷歌浏览器目录树缩进消失:是 Bug 还是配置问题?

    浏览器中的目录树缩进差异 问题: 在谷歌浏览器使用 WEB IDE 时,重命名文件会消除目录树的缩进,但火狐浏览器没有这个问题。这是谷歌的 Bug 吗? 答案: 不是谷歌的 Bug。 解释: 在 Google 浏览器中,浏览器错误地将 margin-right:-17px 应用于目录树元素,而不是 …

    2025年12月24日
    000
  • 谷歌如何使用html5_谷歌浏览器HTML5使用与支持设置技巧【详解】

    Chrome中HTML5问题需通过五步解决:一、更新至v132+确保基础支持;二、在chrome://flags启用WebGPU等实验功能;三、用chrome://gpu、chrome://media-internals及Console命令验证硬件加速与API就绪;四、在网站设置中授权相机、位置等权…

    2025年12月23日
    000
  • 谷歌浏览器怎么运行html_谷歌浏览器运行html方法【教程】

    可通过拖拽HTML文件至谷歌浏览器窗口直接预览;2. 也可通过浏览器菜单选择“打开文件”加载本地文档;3. 还能手动在地址栏输入file:///加文件路径访问;4. 最后可创建桌面快捷方式实现快速启动,四种方法均有效运行HTML文件。 如果您编写了一个HTML文件,想要在浏览器中查看其实际效果,谷歌…

    2025年12月23日
    000
  • 谷歌怎么运行html_谷歌运行html步骤【指南】

    谷歌浏览器通过打开本地文件来渲染HTML页面。首先创建并保存.html格式的HTML文件,如index.html;然后将其保存至易访问位置,确保扩展名正确;接着可通过拖拽文件到Chrome窗口、右键选择“用Google Chrome打开”或在浏览器中通过“打开文件”功能加载页面;最后利用右键“检查”…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信