ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。
然而,当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会 ICLR 2024 接收为了 Oral。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

iclr 2024 oral:长视频中噪声关联学习,单卡训练仅需1天

论文题目:Multi-granularity Correspondence Learning from Long-term Noisy Videos
论文地址:https://openreview.net/pdf?id=9Cu8MRmhq2
项目地址:https://lin-yijie.github.io/projects/Norton
代码地址:https://github.com/XLearning-SCU/2024-ICLR-Norton
背景与挑战
视频表征学习是多模态研究中最热门的问题之一。大规模视频 – 语言预训练已在多种视频理解任务中取得显著效果,例如视频检索、视觉问答、片段分割与定位等。目前大部分视频 – 语言预训练工作主要面向短视频的片段理解,忽略了长视频中存在的长时关联与依赖。
如下图 1 所示,长视频学习核心难点是如何去编码视频中的时序动态,目前的方案主要集中于设计定制化的视频网络编码器去捕捉长时依赖 [2],但通常面临很大的资源开销。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

图 1:长视频数据示例 [2]。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片段,理解整个视频需要具有长时关联推理能力。
由于长视频通常采用自动语言识别(ASR)得到相应的文本字幕,整个视频所对应的文本段落(Paragraph)可根据 ASR 文本时间戳切分为多个短的文本标题(Caption),同时长视频(Video)可相应切分为多个视频片段(Clip)。对视频片段与标题进行后期融合或对齐的策略相比直接编码整个视频更为高效,是长时时序关联学习的一种优选方案。
然而,视频片段与文本句子间广泛存在噪声关联现象(Noisy correspondence [3-4],NC),即视频内容与文本语料错误地对应 / 关联在一起。如下图 2 所示,视频与文本间会存在多粒度的噪声关联问题。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

图 2:多粒度噪声关联。该示例中视频内容根据文本标题切分为 6 块。(左图)绿色时间线指示该文本可与视频内容对齐,红色时间线则指示该文本无法与整个视频中的内容对齐。t5 中的绿色文本表示与视频内容 v5 有关联的部分。(右图)虚线表示原本给定的对齐关系,红色指示原本对齐中错误的对齐关系,绿色则指示真实的对齐关系。实线表示通过 Dynamic Time Wraping 算法进行重新对齐的结果,其也未能很好地处理噪声关联挑战。
粗粒度 NC(Clip-Caption 间)。粗粒度 NC 包括异步(Asynchronous)和不相关(Irrelevant)两类,区别在于该视频片段或标题能否与现有标题或视频片段相对应。其中「异步」指视频片段与标题间存在时序上的错位,例如图 2 中 t1。由于讲述者在实际执行动作的前后进行解释,导致陈述与行动的顺序不匹配。「不相关」则指无法与视频片段对齐的无意义标题(例如 t2 和 t6),或是无关的视频片段。根据牛津 Visual Geometry Group 的相关研究 [5],HowTo100M 数据集中只有约 30% 的视频片段与标题在视觉上是可对齐的,而仅有 15% 是原本就对齐的;
细粒度 NC(Frame-Word 间)。针对一个视频片段,可能一句文本描述中只有部分文字与其相关。在图 2 中,标题 t5 中「糖撒在上面」与视觉内容 v5 强相关,但动作「观察釉面脱落」则与视觉内容并不相关。无关的单词或视频帧可能会阻碍关键信息提取,从而影响片段与标题间的对齐。
方法
本文提出噪声鲁棒的时序最优传输(NOise Robust Temporal Optimal transport, Norton),通过视频 – 段落级对比学习与片段 – 标题级对比学习,以后期融合的方式从多个粒度学习视频表征,显著节省了训练时间开销。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                图 3 视频 – 段落对比算法框架图。
1)视频 – 段落对比。如图 3 所示,研究者以 fine-to-coarse 的策略进行多粒度关联学习。首先利用帧 – 词间相关性得到片段 – 标题间相关性,并进一步聚集得到视频 – 段落间相关性,最终通过视频级对比学习捕捉长时序关联。针对多粒度噪声关联挑战,具体应对如下:
面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 – 词和词 – 帧对齐中的关键词和关键帧,以细粒度的交互方式实现重要信息抽取,累计得到片段 – 标题相似性。
面向粗粒度异步 NC。研究者采用最优传输距离作为视频片段和标题之间的距离度量。给定视频片段 – 文本标题间相似性矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天,其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天表示片段与标题个数,最优传输目标为最大化整体对齐相似性,可天然处理时序异步或一对多(如 t3 与 v4,v5 对应)的复杂对齐情况。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为均匀分布给予每个片段、标题同等权重,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为传输指派或重对齐矩,可通过 Sinkhorn 算法求解。
面向粗粒度不相关 NC。受特征匹配中 SuperGlue [6] 启发,我们设计了自适应的可对齐提示桶去尝试过滤不相关的片段与标题。提示桶是一行一列的相同值向量,拼接于相似性矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天上,其数值代表是否可对齐的相似度阈值。提示桶可无缝融入最优传输 Sinkhorn 求解中。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

Spacely AI Spacely AI

为您的房间提供AI室内设计解决方案,寻找无限的创意

Spacely AI 67 查看详情 Spacely AI

通过最优传输来度量序列距离,而非直接对长视频进行建模,可显著减少计算量。最终视频 – 段落损失函数如下,其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天表示第ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天个长视频与第ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天个文本段落间的相似性矩阵。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

2)片段 – 标题对比。该损失确保视频 – 段落对比中片段与标题对齐的准确性。由于自监督对比学习会将语义相似的样本错误地作为负样本优化,我们利用最优传输识别并矫正潜在的假阴性样本:

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表训练批次中的所有视频片段和标题个数,单位矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表对比学习交叉熵损失中的标准对齐目标,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表融入最优传输矫正目标ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天后的重对齐目标,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为权重系数。
实验
本文旨在克服噪声关联以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务进行验证,部分实验结果如下。
1)长视频检索
该任务目标为给定文本段落,检索对应的长视频。在 YouCookII 数据集上,依据是否保留文本无关的视频片段,研究者测试了背景保留与背景移除两种场景。他们采用 Caption Average、DTW 与 OTAM 三种相似性度量准则。Caption Average 为文本段落中每个标题匹配一个最优视频片段,最终召回匹配数最多的长视频。DTW 和 OTAM 按时间顺序累计视频与文本段落间距离。结果如下表 1、2 所示。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                表 1、2 在 YouCookII 数据集上的长视频检索性能比较
2)噪声关联鲁棒性分析
牛津 Visual Geometry Group 对 HowTo100M 中的视频进行了手工重标注,对每个文本标题重新标注正确的时间戳。产出的 HTM-Align 数据集 [5] 包含 80 个视频与 49K 条文本。在该数据集上进行视频检索主要验证模型是否过度拟合了噪声关联,结果如下表 9 所示。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                            表 9 在 HTM-Align 数据集上针对噪声关联的有效性分析
总结与展望
本文是噪声关联学习 [3][4]—— 数据错配 / 错误关联的深入延续,研究多模态视频 – 文本预训练面临的多粒度噪声关联问题,所提出的长视频学习方法能够以较低资源开销扩展到更广泛的视频数据中。
展望未来,研究者可进一步探讨多种模态间的关联问题,例如视频往往包含视觉、文本及音频信号;可尝试结合外部大语言模型(LLM)或多模态模型(BLIP-2)来清洗和重组织文本语料;以及探索将噪声作为模型训练正激励的可能性,而非仅仅抑制噪声的负面影响。
参考文献:
1. 本站,“Yann LeCun:生成模型不适合处理视频,AI 得在抽象空间中进行预测”,2024-01-23.
2.Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J. (2022). Long-form video-language pre-training with multimodal temporal contrastive learning. Advances in neural information processing systems, 35, 38032-38045.
3.Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X., Wu, H., & Peng, X. (2021). Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, 34, 29406-29419.
4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Graph matching with bi-level noisy correspondence. In Proceedings of the IEEE/CVF international conference on computer vision.
5.Han, T., Xie, W., & Zisserman, A. (2022). Temporal alignment networks for long-term video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2906-2916).
6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020). Superglue: Learning feature matching with graph neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4938-4947).

以上就是ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/848328.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月27日 16:22:49
下一篇 2025年11月27日 16:23:14

相关推荐

  • Java中Ribbon的作用 解析客户端LB

    ribbon在java中主要负责客户端负载均衡,它通过从服务注册中心(如eureka、consul)获取服务提供者列表,并根据负载均衡策略(如轮询、随机、加权响应时间等)选择合适的实例进行调用,从而实现智能的服务选择;1. ribbon的负载均衡策略包括roundrobinrule(轮询)、rand…

    2025年12月5日 java
    000
  • 如何在Laravel中实现数据验证

    在laravel中实现数据验证的核心思路是利用其内置功能确保数据符合预期,通常通过表单请求或validator门面完成。1. 使用表单请求(form request)适合复杂逻辑和授权控制,通过创建独立的请求类定义规则、授权及自定义消息;2. validator门面适用于简单或非控制器场景,通过ma…

    2025年12月5日
    400
  • PHP怎样解析PEAR包格式 PEAR包解析方法快速获取组件信息

    全民k歌:歌房舞台效果开启指南 腾讯出品的全民K歌,以其智能打分、修音、混音和专业音效等功能,深受K歌爱好者喜爱。本教程将详细指导您如何在全民K歌歌房中开启炫酷的舞台效果。 步骤: 打开全民K歌并进入歌房: 打开全民K歌APP,点击底部菜单栏中的“歌房”图标进入。 立即学习“PHP免费学习笔记(深入…

    2025年12月5日 后端开发
    000
  • 如何在Laravel中实现权限管理

    1.spatie/laravel-permission包提供rbac与pbac混合模型,支持角色权限分配、权限检查及与laravel gates/policies无缝集成;2.结合laravel policies可实现基于模型实例的细粒度控制,如限制用户仅能编辑自己的文章;3.blade模板中使用@…

    2025年12月5日
    000
  • PDF批量转Word怎么弄_PDF批量转Word的批量处理方法

    使用专业软件、在线网站或Python脚本可批量将多个PDF转换为Word文档,提升效率并保留排版,操作时需注意文件安全与备份。 如果您需要将多个PDF文件转换为Word文档,手动逐个转换会耗费大量时间。通过批量处理方法,可以高效完成多个PDF文件向Word格式的转换。以下是几种可行的操作方式: 一、…

    2025年12月5日
    000
  • DevDocs— 开源的技术文档爬取和处理工具

    devdocs:程序员和ai开发者的效率利器 DevDocs是一款开源的技术文档爬取与处理工具,专为程序员和AI开发者打造。它利用智能爬虫技术,高效地收集和整理技术文档,将原本需要数周才能完成的任务缩短至数小时。DevDocs支持多线程爬取,速度快,并能自动识别和处理网站链接,支持1-5层深度爬取。…

    2025年12月5日
    000
  • safari浏览器如何重置所有设置_safari浏览器恢复到默认状态

    首先通过Safari偏好设置清除数据并禁用扩展,再删除用户配置文件强制重建,最后清理证书与代理设置以彻底恢复浏览器正常功能。 如果您发现Safari浏览器运行异常、页面加载错误或偏好设置混乱,可能是由于自定义配置导致的功能冲突。将Safari重置为默认状态可以解决此类问题。 本文运行环境:MacBo…

    2025年12月5日
    000
  • AutoRAG— Cloudflare 推出的全托管检索增强生成服务

    cloudflare autorag:简化ai集成,提升应用体验 Cloudflare推出的AutoRAG是一个全托管的检索增强生成(RAG)管道,让开发者能轻松地将上下文感知的AI集成到应用中,无需自行管理基础设施。它利用Cloudflare的Workers AI、Vectorize等技术,自动索…

    2025年12月5日
    000
  • 智象未来亮相 WAIC:多模态智能体 重塑创作的未来版图

    2025 世界人工智能大会(waic)期间,智象未来(hidream.ai)联合创始人兼首席技术官姚霆发表主题演讲,系统阐释了多模态智能体在内容创作领域的技术突破与商业化实践。作为聚焦多模态生成的 ai 创新企业,智象未来期待通过探索多模态大模型的有效落地形式, “让创作回归灵感,让时间忠于故事” …

    2025年12月5日 行业动态
    000
  • 如何在Laravel中配置邮件发送服务

    laravel中配置邮件发送服务的核心是利用其邮件抽象层,通过修改.env文件和config/mail.php对接各种邮件服务商。1. 配置.env文件设置mail_mailer、mail_host、mail_port、mail_username、mail_password、mail_encrypt…

    2025年12月5日
    100
  • 如何在Laravel中执行数据库迁移

    laravel数据库迁移通过php代码管理数据库结构变更,提供版本控制功能。1. 创建迁移文件:使用artisan命令生成带时间戳的迁移文件并定义up()和down()方法;2. 执行迁移:运行migrate命令按顺序执行未应用的迁移;3. 回滚迁移:使用rollback撤销最近一次迁移,refre…

    2025年12月5日
    000
  • Java中如何实现限流 掌握流量控制

    在java中实现限流的方法主要包括计数器算法、滑动窗口算法、漏桶算法、令牌桶算法以及使用guava ratelimiter。1. 计数器算法通过设定时间窗口和请求数量进行限制,优点是实现简单,缺点是可能存在“突刺”问题;2. 滑动窗口算法将时间窗口细化,避免了“突刺”,效果更平滑但实现较复杂;3. …

    2025年12月5日 java
    000
  • 如何备份Office 2019密钥_Office 2019密钥输入快速教程

    首先通过注册表导出LicenseData项备份密钥信息,再使用命令提示符执行cscript ospp.vbs /dstatus查看密钥末尾字符,同时手动记录原始密钥并加密存储,最后在新设备上打开Word进入账户页面输入密钥完成激活。 如果您已经购买了Office 2019并成功激活,但担心系统重装或…

    2025年12月5日
    000
  • js如何检测NFC设备 Web NFC API实战应用指南

    要检测设备是否支持nfc,首先检查’ndefreader’ in window以确认浏览器是否支持web nfc api。接着尝试实例化ndefreader对象并处理可能的异常,若失败则说明nfc功能被禁用或存在其他问题。可选地,使用permissions api查询nfc权…

    2025年12月5日 web前端
    000
  • Composer如何管理项目根目录外的依赖_多项目共享本地包的方法

    通过配置composer.json的path类型仓库,Composer可管理项目根目录外的依赖,实现多项目共享本地包。具体做法是将共享代码作为独立包放在外部目录并编写composer.json,然后在主项目中通过repositories指定其路径,再使用require引入。安装时默认创建符号链接(s…

    2025年12月5日
    000
  • Java中如何实现生产者消费者模式 详解wait/notify机制实现方式

    生产者消费者模式通过协调生产者和消费者对共享缓冲区的访问,实现多线程协作。1. 使用wait()/notifyall()机制:当缓冲区满时生产者等待,空时消费者等待,通过notifyall()唤醒线程避免死锁;2. 选择合适的阻塞队列:如arrayblockingqueue(有界队列适合稳定场景)、…

    2025年12月5日 java
    000
  • js怎样实现网格布局动画 js网格动画的5种交互效果

    javascript实现网格布局动画的核心是结合css grid布局与dom操作,通过动态修改样式属性触发视觉效果。1. 创建css grid容器并定义行列结构;2. 使用javascript操控网格项的样式或借助gsap、anime.js等库实现动画;3. 通过事件监听实现交互效果如悬停放大、颜色…

    2025年12月5日 web前端
    000
  • 电脑主机装机后系统性能检测与调优方法,确保硬件发挥最大潜力

    装完电脑主机后,系统性能检测和调优至关重要。1. 首先进行基本检测,使用cpu-z、gpu-z、crystaldiskinfo等工具确认硬件是否被正确识别;2. 进入bios优化设置,开启xmp/expo配置文件、关闭节能模式、调整风扇曲线;3. 系统层面更新最新驱动、关闭不必要的启动项、设置高性能…

    2025年12月5日 游戏教程
    000
  • 2699元起?华为nova 15系列售价曝光 预计10月发布

    近日,有数码博主透露了华为即将推出的nova 15系列的定价详情。消息称,该系列将延续此前的产品定价思路,标准版起售价或定为2699元,pro版为3499元,ultra版则为4199元。这一价格与2025年5月发布的nova 14系列完全相同——后者同样以2699元起步,pro版3499元,ultr…

    2025年12月5日
    000
  • 如何在Laravel中创建自定义命令

    在laravel中创建自定义命令的步骤如下:1. 使用php artisan make:command mycustomcommand生成命令骨架;2. 在mycustomcommand.php中设置$signature定义命令名、参数和选项,如my:greet {name} {–upp…

    2025年12月5日
    000

发表回复

登录后才能评论
关注微信