NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

本文作者均来自北京大学王选计算机研究所。主要作者包括:林志威,北京大学博士生;王勇涛,北京大学副研究员;汤帜,北京大学研究员。

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景,该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM,在无需训练的情况下,取得了良好的开放式 (Open-ended) 目标检测和实例分割结果,论文已被 NeurIPS 2024 录用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

论文标题:Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts论文链接:https://arxiv.org/abs/2410.05963

论文概述

本文提出了一个无需训练的开放式目标检测和分割框架,结合了现有的泛化物体识别模型(如视觉语言大模型 VLM)与泛化物体定位模型(如分割基础模型 SAM),并使用注意力图作为提示进行两者的连接。在长尾数据集 LVIS 上,该框架超过了之前需要训练的开放式方法,同时能够提供额外的实例分割结果。在自动驾驶 corner case 数据集 CODA 上,VL-SAM 也表现出了不错的结果,证明了其在真实应用场景下的能力。此外,VL-SAM 展现了强大的模型泛化能力,能够结合当前各种 VLM 和 SAM 模型。

研究背景

深度学习在感知任务方面取得了显著成功,其中,自动驾驶是一个典型的成功案例。现有的基于深度学习的感知模型依赖于广泛的标记训练数据来学习识别和定位对象。然而,训练数据不能完全覆盖真实世界场景中所有类型的物体。当面对分布外的物体时,现有的感知模型可能无法进行识别和定位,从而可能会发生严重的安全问题。

为了解决这个问题,研究者们提出了许多开放世界感知方法。这些方法大致可以分为两类:开集感知(open-set)和开放式感知(open-ended)。开集感知方法通常使用预训练的 CLIP 模型来计算图像区域和类别名称之间的相似性。因此,在推理过程中,这类方法需要预定义的对象类别名称作为 CLIP 文本编码器的输入。然而,在许多现实世界的应用场景中,并不会提供确切的对象类别名称。例如,在自动驾驶场景中,自动驾驶车辆可能会遇到各种意想不到的物体,包括起火或侧翻的事故车和各种各样的建筑车辆。相比之下,开放式感知方法更具通用性和实用性,因为这些可以同时预测对象类别和位置,而不需要给定确切的对象类别名称。 

与此同时,在最近的研究中,大型视觉语言模型(VLM)显示出强大的物体识别泛化能力,例如,它可以在自动驾驶场景中的长尾数据上(corner case)识别非常见的物体,并给出准确的描述。然而,VLM 的定位能力相比于特定感知模型较弱,经常会漏检物体或给出错误的定位结果。另一方面,作为一个纯视觉基础模型,SAM 对来自许多不同领域的图像表现出良好的分割泛化能力。然而,SAM 无法为分割的对象提供类别。基于此,本文提出了一个无需训练的开放式目标检测和分割框架 VL-SAM,将现有的泛化物体识别模型 VLM 与泛化物体定位模型 SAM 相结合,利用注意力图作为中间提示进行连接,以解决开放式感知任务。

方法部分

作者提出了 VL-SAM,一个无需训练的开放式目标检测和分割框架。具体框架如下图所示:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

图 1 VL-SAM 框架图

具体而言,作者设计了注意力图生成模块,采用头聚合和注意力流的方式对多层多头注意力图进行传播,从而生成高质量的注意力图。之后,作者使用迭代式正负样本点采样的方式,从生成的注意力图中进行采样,得到 SAM 的点提示作为输入,最终得到物体的分割结果。

1、注意力图生成模块(Attention Map Generation Module)

给定一张输入图片,使用 VLM 给出图片中所有的物体类别。在这个过程中存储 VLM 生成的所有 query 和 key,并使用 query 和 key 构建多层多头注意力图:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

其中 N 表示 token 的数量,H 表示多头注意力的数量,L 表示 VLM 的层数。

之后,采用 Mean-max 的方式对多头注意力图进行聚合,如图 2 所示:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

图 2 多头注意力聚合

首先计算每个头的注意力的权重:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

之后采用基于权重的多头注意力加权进行信息聚合:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

零一万物开放平台 零一万物开放平台

零一万物大模型开放平台

零一万物开放平台 0 查看详情 零一万物开放平台

其中NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割表示矩阵点乘。

在聚合多头注意力图之后,采用注意力流的方式进一步聚合多层注意力图,如图 3 所示

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

图 3 注意力流

具体而言,采用 attention rollout 的方式,计算第NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割层到第NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割层的注意力图传播:

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

其中NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割表示单位矩阵。最后,作者仅使用传播后的最后一层注意力图作为最终的注意力图。

2、SAM 提示生成

生成的注意力图中可能会存在不稳定的假阳性峰值。为了过滤这部分假阳性,作者首先采用阈值过滤的方式进行初步过滤,并找到剩余激活部分的最大联通区域作为正样本区域,其余的部分作为负样本区域。之后,采用峰值检测的方式分别从正负样本区域进行采样,得到正负样本点,作为 SAM 的点提示输入。

3、迭代式分割优化

从 SAM 得到分割结果可能会存在粗糙的边界或者背景噪声,作者采用两种迭代式方式进一步对分割结果进行优化。在第一种迭代方式中,作者借鉴 PerSAM 使用 cascaded post-refinement 的方式,将初始的分割结果作为额外的提示输入到 SAM 中。对于第二种迭代方式,作者使用初始的分割结果对注意力图进行掩码,之后在掩码的区域进行正负样本点采样。

4、多尺度聚合和问题提示聚合

作者还采用两种聚合(Ensemble)的方式进一步改良结果。对于 VLM 的低分率问题,作者使用多尺度聚合,将图片切成 4 块进行输入。此外,由于 VLM 对问题输入较为敏感,作者采用问题提示聚合,使得 VLM 能够尽量多得输出物体类别。最后,采用 NMS 对这些聚合结果进行过滤。

实验结果

在包含 1203 类物体类别的长尾数据集 LVIS 验证集上,相比于之前的开放式方法,VL-SAM 取得了更高的包围框 AP 值。同时,VL-SAM 还能够获取物体分割结果。此外,相比于开集检测方法,VL-SAM 也取得了具有竞争力的性能。 

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

表 1 LVIS 结果

在自动驾驶场景 corner case 数据集 CODA 上,VL-SAM 也取得了不错的结果,超过了开集检测和开放式检测的方法。

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

表 2 CODA 结果

结论

本文提出了 VL-SAM,一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM,在无需训练的情况下,取得了良好的开放式 (Open-ended) 目标检测和实例分割结果。

以上就是NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/410189.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 22:56:22
下一篇 2025年11月6日 22:57:26

相关推荐

  • 币安交易所(binance)新手如何进行合约交易操作及防爆仓指南

    币安合约交易需先熟悉界面,包括交易对、K线图、委托区和仓位信息,重点关注强平价格;执行交易时选择交易对、设置杠杆(新手建议低倍)、下单类型及数量,确认后提交;开仓后应设置止盈止损以控制风险;逐仓模式下可追加保证金降低强平风险;根据风险偏好在全仓与逐仓间切换保证金模式,全仓风险更高但资金利用率高。 币…

    2025年12月9日
    000
  • 欧易(OKX)交易所注册地址及APP下载地址

    OKX是全球数字资产服务平台,用户可通过官网网页端或移动端App注册。网页端注册需访问官方网址www.okx.com/join,填写邮箱或手机号、设置密码、完成人机验证并输入短信或邮件验证码;移动端则需通过手机浏览器下载对应系统的App,安装后打开应用,按提示完成注册流程。两种方式均需阅读并同意服务…

    2025年12月9日
    000
  • 全球主流加密交易所盘点_2025年合规平台前十名推荐

    币安、OKX、火币、Coinbase、Kraken、Bybit、KuCoin、Bitstamp、Gemini和Bitfinex是全球主流加密交易平台。币安以高交易量和全球合规布局著称;OKX在衍生品领域突出并获迪拜与巴哈马监管批准;火币覆盖多国合规许可并推出数字资产消费卡。 选择一个具备合规资质且信…

    2025年12月9日
    000
  • 还会有下一个百倍币吗?2025年值得关注的五大新兴加密货币赛道

    1、币安Binance 币安Binance官网入口: 币安BinanceAPP下载链接: 2、欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 3、火币HTX 官网入口: APP下载链接: 在快速变化的加密市场中,识别增长的极限是投资者关注的焦点潜力。新兴的叙述和技术突破往往能催生出新的…

    2025年12月9日
    000
  • 欧易(OKX)下载指南:从安装到交易的全流程解析

    首先通过官方渠道下载并安装OKX应用,随后注册账户并完成身份验证以解锁交易权限,接着在安全中心绑定双重验证、设置资金密码强化账户保护,再熟悉交易界面布局与功能区域,最后选择交易对并提交买入或卖出委托完成数字资产交易操作。 欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 本指南将详细拆解…

    2025年12月9日
    000
  • 什么是“加密货币的季节性”?理解不同板块间的资金轮动

    比特币主导期资金流入体现避险需求,以太坊崛起标志信心恢复,山寨币轮动反映市场扩散,Meme币爆发预示情绪高潮,形成完整加密货币季节性轮动链条。 “加密货币的季节性”指市场在特定时间段内反复出现的资金流动与板块表现规律,核心在于识别不同资产类别间的轮动顺序。 为了方便新手快速上手币圈交易并实时查看市场…

    2025年12月9日
    000
  • 什么是意图为中心的架构(Intent-Centric)?Web3交互的未来范式

    意图为中心的架构以用户目标为核心,通过解析用户期望结果自动匹配最优执行路径。1、用户提交“将ETH从A链转移到B链”,系统分析跨链桥、DEX等路径,选择成本最低、延迟最小方案并透明执行。2、在去中心化身份验证中,用户发起“访问去中心化存储文件”请求,系统自动校验权限凭证并返回解密密钥,无需手动授权中…

    2025年12月9日
    000
  • 比特币是什么通俗解释_三分钟了解比特币基本概念

    比特币是基于区块链技术的去中心化数字货币,总量恒定2100万枚,通过挖k产生或在交易所购买,由全球节点共同维护账本安全,交易公开透明且不可篡改,用户通过账户私钥掌控资产,具有全球流通和伪匿名特性。 比特币是什么?一个通俗易懂的解释 想象一下,比特币是一种数字黄金,同时也是一种全球性的电子现金。它不像…

    2025年12月9日
    000
  • 币圈爆仓揭秘:血本无归的真相与自救指南

    文章介绍了当前全球表现突出的十大数字资产交易平台。币安以高流动性、多元产品和BNB Chain生态领先;OKX凭借统一账户系统和强大衍生品市场位居前列;Gate.io支持超1400种资产并注重透明与安全;HTX(原火币)依托长期运营积累和成熟风控体系 欧易okx官网入口: 欧易okxAPP下载链接:…

    2025年12月9日
    000
  • MAN币是什么?发行量多少?投资价值分析

    MAN币是Matrix AI Network的原生代币,总发行量10亿枚,用于支付费用。项目融合AI与区块链技术,通过自然语言生成智能合约、AI安全防护和动态DPoS机制提升效率与安全,应用于生物信息、数字艺术等领域,团队具备AI与区块链背景,代币已上线多家交易所,流动性良好。 欧易okx官网入口:…

    2025年12月9日
    000
  • 在币圈里什么是加密资产或数字资产?

    加密资产通过密码学保障安全,以私钥控制资产,基于去中心化区块链实现透明不可篡改的交易记录,分为支付型、功能型和非同质化代币(NFT),其所有权由私钥掌控并在分布式账本中公开验证。 欧易okx官网入口: 欧易okxAPP下载链接: 币安binance官网入口: 币安app下载链接: 加密资产或数字资产…

    2025年12月9日
    000
  • BNX币是什么?购买指南及风险提示

    BNX是BinaryX生态系统的治理代币,用于GameFi、IGO平台及社区治理。获取需通过DEX如PancakeSwap,用BNB或BUSD兑换,操作时需核对合约地址并注意滑点与手续费。投资面临市场波动、项目发展、智能合约安全及流动性风险,需谨慎评估。 欧易okx官网入口: 欧易okxAPP下载链…

    2025年12月9日
    000
  • 什么是 Saga (SAGA) 币?SAGA代币经济学、价格预测及购买方法

    saga (saga) 是加密货币交易所币安的第 51 个 launchpool 项目。该项目是一个专为开发者打造的 layer 1 协议,旨在帮助他们使用“链式组件”(chainlets)构建无限可扩展的应用进程。自成立以来,saga 发展迅猛,两年内已有 350 个项目基于其协议构建,其中 80…

    2025年12月9日 好文分享
    000
  • 币安Alpha新项目中的Bluwhale是什么?

    Bluwhale是币安Alpha支持的Web3数据项目,通过AI整合链上链下数据构建用户画像,助力项目方精准触达高潜力用户群体,并实现数据价值回归;其技术涵盖多源数据采集、AI标签生成与API服务输出,已在币安生态中获得潜力验证、生态协同及社区曝光机会。 1、币安Binance 币安Binance官…

    2025年12月9日
    000
  • 什么是EVM兼容链?它们如何让开发者轻松地将以太坊应用迁移过去?

    EVM兼容链通过复制以太坊虚拟机环境,使Solidity合约可直接部署或轻量修改后运行。1、配置链ID和RPC端点;2、使用Hardhat等工具重新编译并部署;3、更新外部依赖地址以适配目标链生态,确保合约正常交互。 Binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: …

    2025年12月9日
    000
  • 什么是Datagram(DGRAM)币?值得投资吗?Datagram工作原理和代币信息介绍

    datagram 正在构建 hyper-fabric depin 平台,利用人工智能连接计算、带宽和存储资源,为实时应用提供高效的去中心化基础设施。 Binance币安 欧易OKX ️ Huobi火币️ 什么是Datagram Network? Datagram Network作为一个超互连网络层 …

    2025年12月9日 好文分享
    000
  • 火币HTX活期理财如何赎回?到账时间与操作步骤

    文章介绍了当前全球表现突出的十大数字资产交易平台。币安以高流动性、多元产品和BNB Chain生态领先;OKX凭借统一账户系统和强大衍生品市场位居前列;Gate.io支持超1400种资产并注重透明与安全;HTX(原火币)依托长期运营积累和成熟风控体系 欧易okx官网入口: 欧易okxAPP下载链接:…

    2025年12月9日
    000
  • 什么是动态NFT(dNFT)?它如何根据外部条件自动改变其属性?

    动态NFT通过智能合约与外部数据交互实现元数据更新。1、利用预言机如Chainlink获取天气、赛事等链外数据,经验证后触发属性变更;2、基于区块时间戳设定周期性演化规则,自动更新状态并记录于链上;3、通过监听链上事件(如交易完成、游戏结果)驱动实时响应,实现与其他协议的深度集成,确保更新透明可追溯…

    2025年12月9日
    000
  • 如何通过参与测试网来锁定未来项目的早期机会?

    参与测试网是获取新项目早期资格的重要途径,通过选择高潜力项目、完成交互任务、保留操作记录和监控规则更新可有效积累链上凭证。首先应筛选有知名投资方或技术团队背景且已有主网上线计划的测试网,并通过Galxe、Twitter、Discord等渠道获取任务信息。参与多个社区可分散风险并提升收益机会。其次需完…

    2025年12月9日
    000
  • 详解预言机问题:区块链如何安全地获取链下真实世界数据

    区块链需依赖预言机获取外部数据,采用去中心化预言机网络(如Chainlink、Pyth)可降低单点故障风险;通过多源数据验证(如CoinGecko、Binance、Kraken)并计算中位数,结合容差剔除异常值,提升准确性;设置价格变动超8%触发30秒观察期的熔断机制,防止恶意数据注入;结合零知识证…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信