BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器

目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟踪的发展对于实现更高水平的计算机视觉应用具有重要意义。

然而,现有的多模态跟踪任务也面临两个主要问题:

由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。

在RGB序列上进行预%ignore_a_1%,然后完全微调到多模态场景的许多多模态跟踪工作存在时间和效率问题,同时性能有限。

除了完全微调方法之外,还受到自然语言处理(NLP)领域参数高效微调方法的启发。最近的一些方法在多模态跟踪中引入了参数高效prompt微调。这些方法通过冻结骨干网络参数,并添加一组额外可学习的参数来实现。

通常,这些方法主要以一种模态(通常是RGB)作为主要模态,而另一种模态则作为辅助模态。然而,这种方法忽视了多模态数据之间的动态关联性,因此在复杂场景中无法充分利用多模态信息的互补效果,从而限制了跟踪性能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 1:复杂场景下不同的主导模态。

为了解决上述问题,天津大学的研究人员提出了一种名为双向适配器用于多模态跟踪(BAT)的解决方案。与传统方法不同的是,BAT方法不依赖于固定的主导模态和辅助模态,而是通过动态提取有效信息的过程中,在辅助模态向主导模态的变化中获得更好的性能。这种方法的创新之处在于它能够适应不同的数据特征和任务需求,从而提高基础模型在下游任务中的表示能力。通过使用BAT方法,研究人员希望能够提供一种更加灵活和高效的多模态跟踪解决方案,为相关领域的研究和应用带来更好的效果。

BAT 由两个特定于模态分支的共享参数的基础模型编码器和一个通用的双向适配器组成。在训练过程中,BAT 并没有对基础模型进行全面微调,而是采用了逐步训练的方法。每个特定的模态分支都是通过使用固定参数的基础模型进行初始化的,只训练新增的双向适配器。每个模态分支从其他模态中学习提示信息,并与当前模态的特征信息相结合,以增强表征能力。两个特定模态的分支通过通用双向适配器进行交互,动态地相互融合主导和辅助信息,以适应多模态非固定关联的范式。这种设计使得BAT能够在不改变原内容意思的情况下微调内容,提高模型的表征能力和适应性。

通用双向适配器采用轻量级沙漏结构,可以嵌入到基础模型的每一层transformer编码器中,避免引入大量可学习参数。通过仅增加少量的训练参数(0.32M),与全微调方法和基于提示学习的方法相比,通用双向适配器具有更低的训练成本,并获得更好的跟踪性能。

论文《bi-directional adapter for multi-modal tracking》:

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT

Waymark Waymark

Waymark是一个视频制作工具,帮助企业快速轻松地制作高影响力的广告。

Waymark 79 查看详情 Waymark

主要贡献

我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 2:BAT 的总体架构。

首先将每种模态的首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024模板帧(第一帧中目标物体的初始框首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024)和首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024搜索帧(后续追踪图像)转换为 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构,双向 adapter 可以有效地在 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024 模态之间进行特征提示,实现多模态跟踪。

由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 – 辅助模态中提取有效信息,达到了最先进的性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 – 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 4 跟踪结果的可视化。

我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 5 VisEvent 数据集下追踪结果。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 6 attention 权重可视化。

我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。

实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。

以上就是BAT方法:AAAI 2024首个多模态目标追踪通用双向适配器的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1005516.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 23:48:25
下一篇 2025年12月1日 23:48:46

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    000
  • 如何用 CSS Paint API 实现倾斜的斑马线间隔圆环?

    实现斑马线边框样式:探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。 问题: 给定一个有多个圆圈组成的斑马线图案,如何使用 css 实现倾斜的斑马线间隔圆环? 答案: 立即学习“前端免费学习笔记(深入)”; 使用 css paint api…

    2025年12月24日
    000
  • 如何使用CSS Paint API实现倾斜斑马线间隔圆环边框?

    css实现斑马线边框样式 想定制一个带有倾斜斑马线间隔圆环的边框?现在使用css paint api,定制任何样式都轻而易举。 css paint api 这是一个新的css特性,允许开发人员创建自定义形状和图案,其中包括斑马线样式。 立即学习“前端免费学习笔记(深入)”; 实现倾斜斑马线间隔圆环 …

    2025年12月24日
    100

发表回复

登录后才能评论
关注微信