在12个视频理解任务中，Mamba先打败了Transformer

程序猿 • 2025年11月7日 09:03:40 • 用户投稿 • 阅读 1

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

本站发布学术、技术内容的专栏。近年来，本站AIxiv专栏接收报道超过2000篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

探索视频理解的新境界，Mamba 模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型 Mamba 以其在长序列处理上的独特优势，为视频理解领域带来了革命性的变革。

来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 – 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。

论文标题：Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

论文链接：https://arxiv.org/abs/2403.09626

代码链接：https://github.com/OpenGVLab/video-mamba-suite

在当今快速发展的计算机视觉领域，视频理解技术已成为推动行业进步的关键驱动力之一。众多研究者致力于探索和优化各种深度学习架构，以期实现对视频内容的更深层次解析。从早期的循环神经网络（RNN）和三维卷积神经网络（3D CNN），到目前广受瞩目的 Transformer 模型，每一次技术的飞跃都极大地拓宽了我们对视频数据的理解和应用。

特别是 Transformer 模型，以其卓越的性能在视频理解的多个领域 —— 包括但不限于目标检测、图像分割、以及多模态问答等 —— 取得了显著成就。然而，面对视频数据固有的超长序列特性，Transformer 模型也暴露出了其固有的局限性：由于其计算复杂度呈平方增长，使得对超长视频序列的直接建模变得异常困难。

在这样的背景下，状态空间模型架构 —— 以 Mamba 为代表 —— 应运而生，以其线性计算复杂度的优势，展现出处理长序列数据的强大潜力，为 Transformer 模型的替代提供了可能。尽管如此，目前对于状态空间模型架构在视频理解领域的应用，还存在一些局限性：一是主要集中在视频全局理解任务，如分类和检索；二是主要探索了直接进行时空建模的方式，而对于更多样化的建模方法的探索尚显不足。

为了克服这些局限，并全面评估 Mamba 模型在视频理解领域的潜力，研究团队精心打造了 video-mamba-suite（视频 Mamba 套件）。该套件旨在补充现有研究的不足，通过一系列深入的实验和分析，探索 Mamba 在视频理解中的多样化角色和潜在优势。

研究团队将 Mamba 模型的应用划分为四种不同的角色，并据此构建了一个包含 14 个模型 / 模块的视频 Mamba 套件。经过在 12 个视频理解任务上的全面评估，实验结果不仅揭示了 Mamba 在处理视频和视频 – 语言任务上的巨大潜力，还展现了其在效率和性能之间取得的卓越平衡。论文作者们期待着这项工作能够为视频理解领域的未来研究提供可参考的资源和深刻的见解。

研究背景

视频理解作为计算机视觉研究的基础问题，其核心在于捕捉视频中的时空动态，用一识别并推断活动的性质及其演变过程。目前，针对视频理解的架构探索主要分为三个方向。

首先，基于帧的特征编码方法通过循环网络（如 GRU 和 LSTM）进行时间依赖性建模，但这种分割的时空建模方式难以捕获联合时空信息。其次，三维卷积核的使用在卷积神经网络中实现了对空间和时间相关性的同步考虑。

随着语言和图像领域的 Transformer 模型取得巨大成功，视频 Transformer 模型也在视频理解领域取得了显著进展，展现出超越 RNNs 和 3D-CNNs 的能力。视频 Transformer 通过将视频封装在一系列 token 中，并利用注意力机制实现全局上下文交互和数据依赖的动态计算，从而在统一的方式下处理视频中的时间或时空信息。

然而，由于视频 Transformer 在处理长视频时的计算效率有限，出现了一些变体模型，它们在速度和性能之间取得了平衡。最近，状态空间模型（SSMs）在自然语言处理（NLP）领域展现了其优势。现代 SSMs 在长序列建模中表现出强大的表征能力，同时保持线性时间复杂度。这是因为它们的选择机制消除了存储完整上下文的需要。特别是 Mamba 模型，将时变参数纳入 SSM，并提出了一种硬件感知算法，以实现高效的训练和推理。Mamba 的出色扩展性能表明，它有望成为 Transformer 的一个有前景的替代方案。

同时，Mamba 的高性能和效率使其非常适合视频理解任务。尽管已有一些初步尝试探索 Mamba 在图像 / 视频建模中的应用，但其在视频理解中的有效性尚不明确。针对 Mamba 在视频理解中的潜力进行全面研究的缺失，限制了对其在多样化视频相关任务中能力的进一步探索。

针对以上问题，研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。为此，他们首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色。基于此，他们进一步研究了 Mamba 在哪些任务中表现得更出色。

论文将 Mamba 在视频建模中的作用分为以下四类：1) 时序模型，2) 时序模块，3) 多模态交互网络，4) 时空模型。针对每种角色，研究团队都在不同的视频理解任务上研究了其视频建模能力。为了公平地让 Manba 与 Transformer 一较高下，研究团队根据标准或改进的 Transformer 架构精心选择了用于对比的模型。在此基础上，他们得到了一个包含 14 个模型 / 模块的 Video Mamba Suite，适用于 12 个视频理解任务。研究团队希望 Video Mamba Suite 能成为未来探索基于 SSM 的视频理解模型的基础型资源。

四种角色

Mamba 作为视频时序模型

任务和数据：研究团队对 Mamba 在五个视频时间任务上的性能进行了评估：时间动作定位（HACS Segment），时间动作分割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和动作预测（Epic-Kitchen-100）。

基准线和挑战者：研究团队选择了基于 Transformer 的模型作为各项任务的基线。具体来说，这些基线模型包括 ActionFormer，ASFormer，Testra 和 PDVC。为了构建 Mamba 的挑战者，他们将基线模型中的 Transformer 模块替换为基于 Mamba 的模块，包括如上图三种模块，原始的 Mamba (a)，ViM (b)，以及研究团队原创设计的 DBM (c) 模块。值得注意的是，在涉及因果推断的动作预测任务中，论文中将基线模型与原始的 Mamba 模块进行了性能比较。

结果和分析：论文中展示了不同模型在四项任务上的比较结果。总体而言，尽管一些基于 Transformer 的模型已经加入了注意力变体来提升性能。下表展示了 Mamba 系列相比现有 Transformer 系列方法，展示出了更加卓越的性能。

Mamba 用于多模态交互

研究团队不仅关注了单模态任务，还评估了 Mamba 在跨模态交互任务中的性能。论文中采用视频时间定位（VTG）任务评估了 Mamba 的表现。所涉及的数据集包括 QvHighlight 和 Charade-STA。

基准线和挑战者：研究团队使用 UniVTG 来构建基于 Mamba 的 VTG 模型。UniVTG 采用 Transformer 作为多模态交互网络。给定视频特征和文本特征，他们首先为每个模态添加可学习的位置嵌入和模态类型嵌入，以保留位置和模态信息。然后，将文本和视频标记连接起来，形成一个联合输入，进一步输入到多模态 Transformer 编码器中。最后，提取文本增强的视频特征，并将其送入预测头。为了创建跨模态的 Mamba 竞争者，研究团队选择了堆叠双向 Mamba 块，形成一个多模态的 Mamda 编码器，以替代 Transformer 基线。

结果和分析：该论文通过 QvHighlight 测试了多个模型的性能。Mamba 的平均 mAP 为 44.74，与 Transformer 相比有显著提升。在 Charade-STA 上，基于 Mamba 的方法展示出了和 Transformer 类似的竞争力。这表明 Mamba 具有有效整合多种模态的潜力。

考虑到 Mamba 是基于线性扫描的模型，而 Transformer 基于全局标记交互，研究团队直观地认为文本在标记序列中的位置可能会影响多模态聚合的效果。为了调查这一点，他们在表格中包括了不同的文本 – 视觉融合方法，并在图中展示了四种不同的标记排列方式。结论是，当文本条件与视觉特征的左侧融合时，可以获得最佳结果。QvHighlight 对此融合的影响较小，而 Charade-STA 对文本的位置特别敏感，这可能归因于数据集的特性。

存了个图

视频图片解析/字幕/剪辑，视频高清保存/图片源图提取

17 查看详情

Mamba 作为视频时序适配器

在评估 Mamba 在时序后建模方面的性能之外，研究团队还考察了其作为视频时间适配器的有效性。通过在以自我为中心的数据上执行视频文本对比学习来预训练双塔模型，该数据包含 400 万个带有细粒度叙述的视频片段。

任务和数据：研究团队对 Mamba 在五个视频时间任务上的性能进行了评估，其中包括：时序动作定位（HACS Segment），时序动作分割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和动作预测（Epic-Kitchen-100）。

基准线和挑战者：TimeSformer 采用了分开的时空注意力块来分别建模视频中的空间和时间关系。为此，研究团队引入了双向 Mamba 块作为时序适配器，以取代原始的时序自注意力，改善分开的时空交互。为了公平比较，TimeSformer 中的空间注意力层保持不变。在这里，研究团队使用了 ViM 块作为时序模块，并将结果模型称为 TimeMamba。

值得注意的是，标准 ViM 块比自注意力块有更多的参数（略多于

），其中 C 是特征维度。因此，论文中将 ViM 块的扩展比率 E 设置为 1，将其参数量减少到

，以进行公平比较。除了 TimeSformer 使用的普通残差连接形式，研究团队还探索了 Frozen 风格适配方式。以下是 5 种适配器结构：

结果和分析

1.零样本多实例检索。研究团队首先在表中评估了具有分开时空交互操作的不同模型，发现文中复现的 Frozen 风格残差连接与 LaViLa 的一致。当比较原始和 Frozen 风格时，不难观察到 Frozen 风格始终产生更好的结果。此外，在相同的适配方法下，基于 ViM 的时间模块始终优于基于注意力的时间模块。

值得注意的是，论文中使用的 ViM 时间块与时间自注意力块相比参数更少，突出了 Mamba 选择性扫描的较好的参数利用率和信息提取能力。

此外，研究团队进一步验证了时空 ViM 块。时空 ViM 块用整个视频序列上的联合时空建模取代了时序 ViM 块。令人惊讶的是，尽管引入了全局建模，但时空 ViM 块实际上导致了性能下降。为此，研究团队推测基于扫描的时空可能会破坏预训练空间注意力块产生空间特征分布。以下是实验结果：

2.微调多实例检索和动作识别。研究团队继续在 Epic-Kitchens-100 数据集上使用 16 帧微调预训练模型进行多实例检索和动作识别。可以从实验结果中国呢观察到 TimeMamba 在动词识别的上下文中显著优于 TimeSformer，超出了 2.8 个百分点，这说明 TimeMamba 能够在细粒度时序方面有效地建模。

3.零样本长视频问答。研究团队在 EgoSchema 数据集上进一步评估了模型的长视频问答性能。以下是实验结果：

无论是 TimeSformer 还是 TimeMamba，在 Ego4D 上预训练后，都超过了大规模预训练模型（例如 InternVideo）的性能。此外，研究团队从视频开始以固定的 FPS 不断增加了测试帧的数量，以探索 ViM 块长视频时间建模能力的影响。尽管两个模型都是用 4 帧预训练的，但随着帧数的增加，TimeMamba 和 TimeSformer 的性能稳步提高。同时，当使用 8192 帧时，可以观察到显著的改进。当输入帧超过 32 时，TimeMamba 通常比 TimeSformer 从更多的帧数中受益，表明时间 ViM 块在时序自注意力方面具有优越性。

Mamba 用于时空建模

任务和数据：此外，论文中还评估了 Mamba 在空间 – 时间建模方面的能力，具体在 Epic-Kitchens-100 数据集上评估了模型在零样本多实例检索方面的性能。

基线和竞争者：ViViT 和 TimeSformer 研究了将具有空间注意力的 ViT 转化为具有空间 – 时间联合注意力的模型。基于此，研究团队进一步扩展了 ViM 模型的空间选择性扫描，以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队使用在 ImageNet-1K 上预训练的 ViM 模型进行初始化。ViM 模型包含了一个 cls token，该 token 被插入到拍平的 token 序列的中间。

下图中展示了将 ViM 模型转换为 ViViM的方法。对于给定的包含 M 帧的输入，在每帧对应的 token 序列的中间插入 cls token。此外，研究团队添加了时间位置嵌入，对每个帧初始化为零。然后将展平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每帧的 cls token 的平均值来得到的。

结果和分析：论文中进一步研究了 ViViM 在零样本多实例检索方面的结果，实验结果如下表所示：

结果展示了不同时空模型在零样本多实例检索上的性能。当比较 ViT 和 ViViM 时，两者都是在 ImageNet-1K 上预训练的，可以观察到 ViViM 的性能超过了 ViT。有趣的是，尽管在 ImageNet-1K 上 ViT-S 和 ViM-S 之间的性能差距很小（79.8 vs 80.5），但 ViViM-S 在零样本多实例检索上显示出显著的改进（+2.1 mAP@Avg），这表明 ViViM 在建模长序列方面非常有效，从而提高了性能。

结论

这篇论文通过全面评估 Mamba 视频理解领域的表现，展示了 Mamba 可以作为传统 Transformers 的可行替代方案的潜力。通过包含 12 个视频理解任务的 14 个模型 / 模块组成的 Video Mamba Suite，研究团队展示了 Mamba 高效处理复杂时空动态的能力。Mamba 不仅性能超群，还能够更好地实现效率 – 性能之间的平衡。这些发现不仅强调了 Mamba 适用于视频分析任务，而且还为其在计算机视觉领域的应用开辟了新的途径。未来的工作可以进一步探索 Mamba 的适应性，并将其效用扩展到更复杂的多模态视频理解挑战中。

以上就是在12个视频理解任务中，Mamba先打败了Transformer的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/419921.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

【mysql教程】MySQL 处理重复数据

上一篇 2025年11月7日 09:03:38

Java 垃圾回收：哪些条件会导致对象进入老年代？

下一篇 2025年11月7日 09:03:44

用户投稿

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
用户投稿

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 用户投稿
5000
用户投稿

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
3000
用户投稿

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
用户投稿

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
用户投稿

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
用户投稿

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
用户投稿

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
用户投稿

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
用户投稿

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
用户投稿 2025年12月24日
0000
用户投稿

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
6000
用户投稿

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
用户投稿

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
用户投稿 2025年12月24日
0000
用户投稿

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
用户投稿

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
1000
用户投稿

掌握 Flexbox：我关于构建响应式布局的学习笔记

好吧，喝杯咖啡（或者茶，我们不评判），让我们深入flexbox的世界！如果您曾因试图让网页在任何设备上看起来都不错而感到沮丧 – 别担心，您并不孤单。 flexbox 来拯救世界，相信我，它并不像听起来那么可怕！ flexbox 到底是什么？ flexbox 就像您的个人布局助手，可以…

程序猿
2025年12月24日
0000
用户投稿

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

在12个视频理解任务中，Mamba先打败了Transformer

关于作者

相关推荐

发表回复