目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

目标检测领域,yolov9 在实现过程中不断进步,通过采用新架构和方法,有效提高了传统卷积的参数利用率,这使得其性能远超前代产品。

继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了!

自2015年Joseph Redmon和Ali Farhadi等人提出了第一代YOLO模型以来,目标检测领域的研究者们对其进行了多次更新和迭代。YOLO是一种基于图像全局信息的预测系统,其模型性能不断得到增强。通过不断改进算法和技术,研究人员取得了显著的成果,使得YOLO在目标检测任务中表现出越来越强大的能力。这些不断的改进和优化为目标检测技术的发展带来了新的机遇和挑战,同时也推动了该领域的进步和创新。YOLO的成功也激励着研究者们继续努力,

此次,YOLOv9 由中国台湾 Academia Sinica、台北科技大学等机构联合开发,相关的论文《Learning What You Want to Learn Using Programmable Gradient Information 》已经放出。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

论文地址:https://arxiv.org/pdf/2402.13616.pdf

GitHub 地址:https://github.com/WongKinYiu/yolov9

如今的深度学习方法重点关注如何设计最合适的目标函数,从而使得模型的预测结果能够最接近真实情况。同时,必须设计一个适当的架构,可以帮助获取足够的信息进行预测。然而,现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。 

因此,YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数。

研究者提出了可编程梯度信息(programmable gradient information,PGI)的概念,来应对深度网络实现多个目标所需要的各种变化。PGI 可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权值。

此外,研究者基于梯度路径规划设计了一种新的轻量级网络架构,即通用高效层聚合网络(Generalized Efficient Layer Aggregation Network,GELAN)。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。

研究者在基于 MS COCO 数据集的目标检测任务上验证所提出的 GELAN 和 PGI。结果表明,与基于深度卷积开发的 SOTA 方法相比,GELAN 仅使用传统卷积算子即可实现更好的参数利用率。

对于 PGI 而言,它的适用性很强,可用于从轻型到大型的各种模型。我们可以用它来获取完整的信息,从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。下图 1 展示了一些比较结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

对于新发布的 YOLOv9,曾参与开发了 YOLOv7、YOLOv4、Scaled-YOLOv4 和 DPT 的 Alexey Bochkovskiy 给予了高度评价,表示 YOLOv9 优于任何基于卷积或 transformer 的目标检测器。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                                    来源:https://twitter.com/alexeyab84/status/1760685626247250342

还有网友表示,YOLOv9 看起来就是新的 SOTA 实时目标检测器,他自己的自定义训练教程也在路上了。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                               来源:https://twitter.com/skalskip92/status/1760717291593834648

更有「勤劳」的网友已经为 YOLOv9 模型添加了 pip 支持。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

                                 来源:https://twitter.com/kadirnar_ai/status/1760716187896283635

接下来看 YOLOv9 的详细信息。

问题陈述

通常,人们将深度神经网络收敛困难问题归因于梯度消失或梯度饱和等因素,这些现象确实存在于传统的深度神经网络中。然而,现代深度神经网络通过设计各种归一化和激活函数,已经从根本上解决了上述问题。不过即便如此,深度神经网络中仍然存在着收敛速度慢或收敛效果差的问题。那么这个问题的本质到底是什么?

研究者通过对信息瓶颈的深入分析,推断出了该问题的根本原因:梯度最初从非常深层的网络传递出来后不久,就丢失了许多达成目标所需的信息。为了验证这一推断,研究者们对具有初始权重的不同架构的深度网络进行前馈处理。图 2 对此进行了可视化说明。显然,PlainNet 在深层丢失了很多进行对象检测所需的重要信息。至于 ResNet、CSPNet 和 GELAN 能够保留的重要信息比例,确实与训练后能够获得的准确性正相关。研究者进一步设计了基于可逆网络的方法来解决上述问题的原因。

方法介绍

可编程梯度信息(PGI)

Remove.bg Remove.bg

AI在线抠图软件,图片去除背景

Remove.bg 174 查看详情 Remove.bg

该研究提出了一种新的辅助监督框架:可编程梯度信息(Programmable Gradient Information,PGI),如图 3(d)所示。 

PGI 主要包括三个部分,即(1)主分支,(2)辅助可逆分支,(3)多级辅助信息。

PGI 的推理过程仅使用了主分支,因此不需要额外的推理成本;

辅助可逆分支是为了处理神经网络加深带来的问题, 网络加深会造成信息瓶颈,导致损失函数无法生成可靠的梯度;

多级辅助信息旨在处理深度监督带来的误差累积问题,特别是多个预测分支的架构和轻量级模型。 

GELAN 网络

此外,该研究还提出了一个新的网络架构 GELAN(如下图所示),具体而言,研究者把 CSPNet、 ELAN 这两种神经网络架构结合起来,从而设计出兼顾轻量级、推理速度和准确性的通用高效层聚合网络(generalized efficient layer aggregation network ,GELAN)。研究者将最初仅使用卷积层堆叠的 ELAN 的功能泛化到可以使用任何计算块的新架构。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

实验结果

为了评估 YOLOv9 的性能,该研究首先将 YOLOv9 与其他从头开始训练的实时目标检测器进行了全面的比较,结果如下表 1 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

该研究还将 ImageNet 预训练模型纳入比较中,结果如下图 5 所示。值得注意的是,使用传统卷积的 YOLOv9 在参数利用率上甚至比使用深度卷积的 YOLO MS 还要好。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

消融实验

为了探究 YOLOv9 中各个组件的作用,该研究进行了一系列消融实验。

该研究首先对 GELAN 的计算块进行消融实验。如下表 2 所示,该研究发现用不同的计算块替换 ELAN 中的卷积层后,系统可以保持良好的性能。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

然后该研究又在不同尺寸的 GELAN 上针对 ELAN 块深度和 CSP 块深度进行了消融实验,结果如下表 3 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

在 PGI 方面,研究者分别在主干网络和 neck 上对辅助可逆分支和多级辅助信息进行了消融研究。表 4 列出了所有实验的结果。从表 4 中可以看出,PFH 只对深度模型有效,而本文提出的 PGI 在不同组合下都能提高精度。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

研究者进一步在不同大小的模型上实现了 PGI 和深度监控,并对结果进行了比较,结果如表 5 所示。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

图 6 显示了从基准 YOLOv7 到 YOLOv9- E 逐步增加组件的结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

可视化

研究者探讨了信息瓶颈问题,并将其进行了可视化处理,图 6 显示了在不同架构下使用随机初始权重作为前馈获得的特征图的可视化结果。

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

图 7 说明了 PGI 能否在训练过程中提供更可靠的梯度,从而使用于更新的参数能够有效捕捉输入数据与目标之间的关系。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

更多技术细节,请阅读原文。

以上就是目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/952291.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
怎么卸载diskdrill_DiskDrill软件完整卸载步骤详解
上一篇 2025年12月1日 17:44:44
mysql错误10038怎么解决
下一篇 2025年12月1日 17:44:50

相关推荐

  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 如何从Google Drive中恢复被转换为GDoc的原始HTML文件

    当HTML文件上传至Google Drive后被自动转换为Google Docs格式时,用户可能无法直接下载原始HTML文件。本教程将详细指导您如何利用Google Docs的版本历史功能,找到并下载最初上传的HTML文件,解决下载时仅获取渲染视图而非原始文件的问题。 引言:Google Drive…

    2026年5月10日
    000
  • C#的System.IO.Pipelines是什么?如何实现高性能的流处理?

    System.IO.Pipelines通过PipeReader和PipeWriter减少内存分配与拷贝,高效处理流数据,适用于高吞吐、低延迟场景如网络通信和协议解析。 System.IO.Pipelines 是 C# 中用于高效处理流数据的一个库,特别适合高吞吐、低延迟的场景,比如网络通信、文件解析…

    2026年5月10日
    100
  • JavaScript对象与HTML表格动态渲染:构建交互式图书列表

    JavaScript对象与HTML表格动态渲染:构建交互式图书列表JavaScript对象与HTML表格动态渲染:构建交互式图书列表JavaScript对象与HTML表格动态渲染:构建交互式图书列表JavaScript对象与HTML表格动态渲染:构建交互式图书列表

    本教程详细介绍了如何使用javascript构建一个动态的图书列表应用。通过面向对象编程思想定义图书对象,利用数组存储数据,并结合dom操作实现html表格的实时更新。文章涵盖了数据模型、表单交互、dom元素创建与管理等核心概念,旨在帮助读者理解如何将javascript对象数据高效地呈现在网页表格…

    2026年5月10日 用户投稿
    200
  • 如何通过URL查询参数在不同HTML页面间传递数据

    本教程详细阐述了如何在不同HTML页面之间传递数据,特别聚焦于使用URL查询参数的方法。我们将通过一个点餐系统示例,演示如何从一个菜单页面获取商品名称和价格,并通过点击按钮将其安全地传递到支付页面,并在支付页面自动填充相应的表单输入框。文章涵盖了数据编码、URL构建以及在目标页面解析和使用这些数据,…

    2026年5月10日
    100
  • Python中子类继承与队列操作:实现isempty方法的最佳实践

    本文深入探讨了在python中,当子类`superqueue`继承自`queue`并需要实现`isempty`方法时所面临的挑战。重点聚焦于如何正确调用父类方法、处理异常、以及在`get`方法会修改队列内容的情况下,如何设计`isempty`以确保队列的完整性与数据顺序,尤其是在处理布尔值`fals…

    2026年5月10日
    000
  • Go程序使用gRPC流式调用卡死怎么调试

    Go程序使用gRPC流式调用卡死怎么调试Go程序使用gRPC流式调用卡死怎么调试Go程序使用gRPC流式调用卡死怎么调试Go程序使用gRPC流式调用卡死怎么调试

    grpc流式调用卡死问题通常源于客户端或服务端的阻塞,解决方法包括:1. 确认正确处理流关闭和错误;2. 检查网络稳定性;3. 使用pprof进行性能分析;4. 添加详细日志记录;5. 设置send和recv操作的超时机制;6. 采用并发控制避免goroutine泄漏;7. 实现流量控制防止过载;8…

    2026年5月10日 用户投稿
    000
  • 如何在Golang中实现购物车功能

    答案:通过定义用户、商品和购物项结构体,使用map管理购物车条目,实现添加、删除、计算总价功能,并结合HTTP接口与读写锁支持并发操作,适合扩展优惠券与库存校验。 在Golang中实现购物车功能,关键在于管理用户、商品和购物项之间的关系。通常使用结构体来表示数据模型,结合内存存储或数据库完成增删改查…

    2026年5月10日
    100
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2026年5月10日
    000
  • Python与IPMI重启:确保文件数据持久化的最佳实践

    本文探讨了在linux环境下,python脚本写入文件后立即通过ipmi工具进行系统重启时,文件内容可能丢失的问题。该问题源于操作系统文件系统缓存未及时刷新至永久存储。教程将详细解释数据丢失的原因,并提供使用`sync`命令确保数据持久化的有效解决方案,帮助开发者避免类似的数据完整性问题。 Pyth…

    2026年5月10日
    000
  • PHP 并发文件操作中的数据完整性保障:使用文件锁防止数据丢失

    本文旨在解决服务器端在处理高并发文件写入时可能发生的数据丢失问题。当多个请求同时尝试修改同一文件时,可能导致竞态条件。通过引入 PHP 的文件锁(`flock`)机制,可以确保文件在写入过程中被独占访问,从而有效防止数据损坏或丢失,保障数据传输和存储的原子性与一致性。 在现代 Web 应用中,客户端…

    2026年5月10日
    000
  • PHP表单提交后页面重定向与状态管理:利用$_SESSION实现内容动态显示

    本文探讨了php表单提交后通过`header(“location: …”)`重定向导致`$_post`数据丢失的问题。我们将学习如何利用`$_session`在不同页面间安全地传递表单提交状态和相关数据,从而在重定向后的目标页面(如`index.php`)动态显示…

    2026年5月10日
    000
  • React Hook Form:解决表单提交时页面刷新与数据丢失问题

    本文旨在解决使用 react hook form 时,因 `handlesubmit` 用法不当导致的表单提交后页面刷新、数据暴露在 url 及验证失效等问题。核心在于明确 `handlesubmit` 的正确集成方式,即将其返回的事件处理函数直接传递给 ` errors.email?.messag…

    2026年5月10日
    100
  • 如何处理图像EXIF方向并转换为Base64,避免数据丢失

    本教程旨在解决图像EXIF方向信息在转换为Base64编码过程中丢失的问题。通过结合使用piexif库提取并移除EXIF方向数据,以及Jimp库对图像进行实际旋转,我们可以确保生成的Base64图像在视觉上保持正确的方向,从而满足API调用等需求,避免因EXIF元数据丢失而导致的显示错误。 在处理图…

    2026年5月10日
    000
  • PHP命令怎么实现文本替换_PHP命令行批量文本替换技巧

    使用PHP命令行可高效实现文本替换。1. 单文件替换:通过php -r调用file_get_contents、str_replace和file_put_contents将“hello”替换为“world”。2. 批量处理:编写脚本遍历目录下指定类型文件,循环读取、替换并写回内容。3. 支持正则:使用…

    2026年5月10日
    000
  • Go语言程序性能优化:深度解析I/O瓶颈与bufio实践

    本文旨在探讨go程序在特定场景下性能低于预期的原因,特别是当涉及大量文件i/o操作时。通过实际案例分析,揭示了go标准库中非缓冲i/o的性能瓶颈,并详细介绍了如何利用`bufio`包实现缓冲i/o以显著提升程序效率。教程将提供示例代码和关键注意事项,帮助开发者优化go应用的i/o密集型任务。 理解G…

    2026年5月10日
    000
  • Go语言HTTP客户端长连接与响应体数据读取指南

    本文旨在解决Go语言http.Client在处理HTTP长连接时,读取响应体数据为空或不完整的问题。核心在于正确初始化用于response.Body.Read()的字节缓冲区,并妥善处理io.Reader的返回值(读取字节数n和错误err),确保数据被有效接收和处理,避免因缓冲区未分配或错误处理不当…

    2026年5月10日
    000
  • 无数据库实现简易多人协作应用:可行性与技术方案

    本文探讨了在没有传统后端数据库的情况下,实现一个简单的多人协作列表应用的可行性。针对少量用户、小数据量的场景,介绍了利用浏览器本地存储和实时通信技术(如WebSocket或Firebase Realtime Database)实现数据同步和更新的方法,并分析了其优缺点和适用场景。 在某些特定场景下,…

    2026年5月10日
    000
  • Python如何连接SQLite?轻量级数据库操作

    python操作sqlite的核心在于使用内置的sqlite3模块,其基本流程包括:1. 使用sqlite3.connect()建立连接;2. 通过conn.cursor()创建游标;3. 执行sql语句进行建表、增删改查等操作;4. 涉及数据修改时调用conn.commit()提交事务;5. 操作…

    2026年5月10日
    000
  • 深度剖析程序设计中必不可少的数据类型分类

    【深入解析基本数据类型:掌握编程中必备的数据分类】 在计算机编程中,数据是最为基础的元素之一。数据类型的选择对于编程语言的使用和程序的设计至关重要。在众多的数据类型中,基本数据类型是最基础、最常用的数据分类之一。通过深入解析基本数据类型,我们能够更好地掌握编程中必备的数据分类。 一、基本数据类型的定…

    2025年12月24日
    600

发表回复

登录后才能评论
关注微信