随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

前段时间,Meta 发布「分割一切(SAM)」AI 模型,可以为任何图像或视频中的任何物体生成 mask,让计算机视觉(CV)领域研究者惊呼:「CV 不存在了」。之后,CV 领域掀起了一阵「二创」狂潮,一些工作陆续在分割的基础上结合目标检测、图像生成等功能,但大部分研究是基于静态图像的。

现在,一项称为「追踪一切」的新研究为动态视频中的运动估计提出了新方法,能够准确、完整地追踪物体的运动轨迹。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。 

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

论文地址:https://arxiv.org/abs/2306.05422项目主页:https://omnimotion.github.io/

有网友在推特上转发了这项研究,仅一天时间就收获了 3500 + 的点赞量,研究内容大受好评。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

从该研究发布的 demo 看,运动追踪的效果非常好,例如追踪跳跃袋鼠的运动轨迹:

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

荡秋千的运动曲线:

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

还能交互式查看运动追踪情况:

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

即使物体被遮挡也能追踪运动轨迹,如狗在跑动的过程中被树遮挡:

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

在计算机视觉领域,常用的运动估计方法有两种:稀疏特征追踪和密集光流。但这两种方法各有缺点,稀疏特征追踪不能建模所有像素的运动;密集光流无法长时间捕获运动轨迹。

该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频,并通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。

方法概述

该研究将帧的集合与成对的噪声运动估计(例如光流场)作为输入,以形成整个视频的完整、全局一致的运动表征。然后,该研究添加了一个优化过程,使其可以用任何帧中的任何像素查询表征,以在整个视频中产生平滑、准确的运动轨迹。值得注意的是,该方法可以识别画面中的点何时被遮挡,甚至可以穿过遮挡追踪点。

omnimotion 表征

传统的运动估计方法(例如成对光流),当物体被遮挡时会失去对物体的追踪。为了在遮挡的情况下也能提供准确、一致的运动轨迹,该研究提出全局运动表征 OmniMotion。

该研究试图在没有显式动态 3D 重建的情况下准确追踪真实世界的运动。OmniMotion 表征将视频中的场景表示为规范的 3D 体积,通过局部规范双射(local-canonical bijection)映射成每个帧中的局部体积。局部规范双射被参数化为神经网络,并在不分离两者的情况下捕获相机和场景运动。基于此种方法,视频可以被视为来自固定静态相机局部体积的渲染结果。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

由于 OmniMotion 没有明确区分相机和场景运动,所以形成的表征不是物理上准确的 3D 场景重建。因此,该研究称其为 quasi-3D 表征。

OmniMotion 保留了投影到每个像素的所有场景点的信息,以及它们的相对深度顺序,这让画面中的点即使暂时被遮挡,也能对其进行追踪。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

实验及结果

定量比较

研究者将提出的方法与 TAP-Vid 基准进行比较,结果如表 1 所示。可以看出,在不同的数据集上,他们的方法始终能实现最佳的位置准确性、遮挡准确性和时序一致性。他们的方法可以很好地处理来自 RAFT 和 TAP-Net 的不同的成对对应输入,并且在这两种基准方法上提供了一致的改进。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

定性比较

知了追踪 知了追踪

AI智能信息助手,智能追踪你的兴趣资讯

知了追踪 64 查看详情 知了追踪

如图 3 所示,研究者对他们的方法和基线方法进行了定性比较。新方法在(长时间)遮挡事件中显示出了出色的识别和追踪的能力,同时在遮挡期间为点提供合理的位置,并处理很大的摄像机运动视差。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

消融实验与分析

研究者利用消融实验来验证他们设计决策的有效性,结果如表 2 所示。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

在图 4 中,他们展示了由他们的模型生成的伪深度图,以展示学习到的深度排序。

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

需要注意的是,这些图并不对应于物理深度,然而,它们展示了仅使用光度和光流信号时,新方法能够有效地确定不同表面之间的相对顺序,这对于在遮挡中进行追踪至关重要。更多的消融实验和分析结果可以在补充材料中找到。

以上就是随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/523104.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 06:37:22
下一篇 2025年11月9日 06:38:24

相关推荐

  • word如何插入视频并播放_Word插入视频播放方法

    可通过“插入”功能添加在线视频,复制YouTube链接后在Word中选择“在线视频”粘贴链接即可嵌入;2. 插入本地视频文件需使用“对象”功能,选择“由文件创建”并浏览视频文件完成嵌入,双击图标可调用程序播放;3. 使用超链接可快速跳转播放视频,选中文字或图片添加链接至视频路径或网址,兼容所有格式。…

    2025年12月3日 软件教程
    000
  • Apple TV+有望进入中国市场:曝苹果正在与中国移动洽谈合作

    6月5日消息,据知情人士最新爆料,苹果从去年就开始与中国移动接触,洽谈apple tv+视频流媒体服务进入中国市场的事宜。 目前此事尚未有结果传出,但消息称苹果会尽力促成此事,因为目前国内苹果用户量巨大,而中国移动同样有大量潜在客户。 如果谈判成功,Apple TV+将成为唯一在中国推出的美国流媒体…

    2025年12月2日 行业动态
    000
  • Oracle、Sybase和SQL Server如何追踪JDBC调用

    在本文中,我们将了解如何使用面向 Oracle、Sybase 和 SQL Server 的 DataDirect Spy for JDBC 来追踪 IBM 数据复制产品 InfoSphere Change Data Capture (CDC) 中的 JDBC 调用。 datadirect spy 支…

    数据库 2025年12月2日
    000
  • 如何用AI制作科技演示视频_科技类视频AI内容生成与表达技巧

    利用AI技术可高效制作科技演示视频:首先用AI生成脚本并优化术语,接着通过语音合成创建专业解说,再用AI生成图像与动画强化抽象概念表达,随后借助智能剪辑工具自动对齐音画并统一视觉风格,最后用AI生成精准字幕提升可访问性。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 Deep…

    2025年12月2日 科技
    000
  • 怎么用html5看视频_HTML5视频播放器使用与故障排除

    HTML5通过标签实现原生视频播放,支持controls、尺寸设置及多格式兼容;需注意浏览器格式支持差异、服务器MIME类型配置、CORS跨域限制及自动播放策略,可通过JavaScript检测格式支持、添加poster封面图等提升体验。 在现代网页中,HTML5 提供了原生支持视频播放的能力,无需依…

    2025年11月29日 web前端
    000
  • HTML5 视频画廊中动态管理封面图的实现

    本文提供了一份关于在html5视频画廊中实现动态封面图管理的全面指南。它解决了管理多个视频元素及其对应封面图的常见问题,演示了如何利用javascript、css和正确的html结构,在视频播放时隐藏封面图,并在暂停时重新显示,以提供无缝的用户体验。 在现代网页设计中,视频画廊是常见的交互元素,用于…

    2025年11月29日 web前端
    000
  • 苹果手机掉了如何追踪手机在哪里

    苹果手机掉了怎么办?这是很多人面临的问题。如果你的苹果手机不慎丢失或被盗,别着急,有方法可以帮你追踪手机的位置。通过“查找我的iphone”功能,你可以轻松定位手机所在地。今天,php小编香蕉将为大家详细介绍如何使用这一功能来找回丢失的苹果手机。让我们一起来看看吧! 苹果手机掉了如何追踪手机在哪里 …

    2025年11月28日 手机教程
    000
  • iOS 18.2 通过这五项更改使 Apple Photos 变得更好

    apple 的照片应用程序在 ios 18 中进行了重大重新设计,但并非所有更改都受到好评。幸运的是,apple 听取了反馈,并在 ios 18.2 中对照片进行了五项关键更改。 #1:视频界面更改 iOS 18.1(左)和 iOS 18.2(右)中的“照片”应用程序 iOS 18 中视频的一个有争…

    2025年11月28日 手机教程
    000
  • 在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

    近期,AI 视频技术领域备受关注,尤其是OpenAI推出的Sora视频生成大模型引起了广泛讨论。与此同时,在视频剪辑领域,Agent等大型AI模型也展现出强大的实力。 尽管自然语言被用于处理视频剪辑任务,用户可以直接表达意图而无需手动操作。然而,当前大多数视频剪辑工具仍然需要大量手动操作,并且缺乏个…

    2025年11月27日 科技
    100
  • AI助力文本编辑和视频剪辑:Adobe降低了视频创作的门槛

    随着各类强大生成模型的问世,人工智能生成内容(AIGC)越来越受到关注。在视觉生成领域,基于 GAN、扩散模型的图像生成模型越来越多,生成效果也越来越好。这些模型也在加速落地,许多「AI 画图」工具的能力都令人惊艳。 作为视觉内容生产力工具大厂的 Adobe,近期终于宣布入局 AIGC 赛道。北京时…

    2025年11月27日 科技
    000
  • 如何使用Layui开发一个支持可编辑的视频播放列表管理系统

    如何使用Layui开发一个支持可编辑的视频播放列表管理系统 一、简介随着互联网的发展,人们对于在线视频的需求越来越大。而一个好的视频播放列表管理系统可以方便地实现视频的添加、编辑、删除等功能,提供良好的用户体验。本文将介绍如何使用Layui框架来开发一个支持可编辑的视频播放列表管理系统,并提供具体的…

    2025年11月27日 web前端
    000
  • Transformer模型在挑战视频生成中成功利用20亿个数据点学习物理世界

    建立会做视频的世界模型,也能通过transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。 它可以完成多种视频生成任务,包括自然场景和自动驾驶场景,如文生视频、图生视频、视频编辑、动作序列生视频等。 ☞☞☞AI 智能聊天, 问答…

    2025年11月26日 科技
    000
  • iPhone相机在室内灯光下闪烁/闪烁:修复

    您的 %ignore_a_1% 相机在室内灯光下闪烁或闪烁太多吗?您用 iphone 拍摄的视频看起来不太好,因为灯光会亮起。您在视频上看到的闪烁是因为刷新率的差异。这是不正常的,有一些方法可以解决这个问题。此修复程序将帮助您解决iphone视频中的连续闪烁或闪烁效果。 修复 – 更改视频输出格式 …

    2025年11月26日 手机教程
    000
  • 尚观Oracle入门到精通视频教程的资料详细介绍

    oracle由于其良好的数据安全性和稳定性,在数据库领域一直处于领先地位。《尚观oracle入门到精通视频教程》针对数据库开发人员设计,从零开始对oracle进行介绍。除了基本的sql语法外,还为小伙伴们带来了数据库开发过程中必备的自定义函数和存储过程等内容。 课程播放地址:http://www.p…

    2025年11月26日 数据库
    000
  • 动力节点mysql基础视频教程的资源分享

    title=”mysql是一个关系型数据库管理系统,由瑞典mysql ab 公司开发,目前属于 oracle 旗下产品。mysql 是最流行的关系型数据库管理系统之一,在 web 应用方面,mysql是最好的 rdbms (relational database management s…

    2025年11月26日 数据库
    000
  • 华硕天选6 Pro酷睿版终极碾压!Ultra7 255HX+AI高静黑科技 选它准没错

    2025 年游戏本市场,华硕天选6 pro 的酷睿与锐龙双版本让不少玩家陷入选择困境 —— 一边是锐龙 9 8940hx 的 “堆料式” 参数,一边是酷睿ultra7 255hx 的 “精修式” 体验。但当实测数据说话时,这场对决的结果早已清晰:酷睿版以41 项测试拿下 32 项胜利,从单核性能、a…

    2025年11月26日 行业动态
    000
  • 使命召唤手游高达联动团队竞技模式上线时间

    《使命召唤手游》与高达的联动团队竞技模式究竟何时上线?不少玩家对此时间并不清楚,实际上官方已经发布了相关消息,接下来我们一起来了解该模式的具体上线时间。 使命召唤手游 高达联动团队竞技模式上线时间? 答:据官方公布的信息显示,《使命召唤手游》第六赛季“高达降临”已于7月2日太平洋时间下午5点正式开启…

    2025年11月25日 游戏教程
    000
  • PCIe 4.0接口对显卡性能的实际影响有多大?

    PCIe 4.0对显卡性能影响有限,实际游戏中提升不明显,主要优势体现在高带宽需求的专业场景和未来技术如DirectStorage;对普通用户而言,显卡自身性能远比接口版本关键。 PCIe 4.0接口对于显卡性能的实际影响,坦白说,在绝大多数日常使用和游戏场景中,它带来的性能提升微乎其微,甚至可以说…

    2025年11月14日
    000
  • 视频、音频内容安全审核系统哪个好?分享11款在线内容审核平台

    本文将深入对比11款在线内容审核平台:1.网易易盾; 2.奇富科技; 3.小盾安全; 4.数美科技; 5.冰鉴科技; 6.拓尔思; 7.Microsoft Azure; 8.观安信息; 9.栈略数据; 10.同盾科技; 11.百川数安 在内容泛滥的数字时代,企业面临着前所未有的信息合规挑战。特别是视…

    2025年11月12日 用户投稿
    000
  • Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

    原标题:anything in any scene: photorealistic video object insertion 论文链接:https://arxiv.org/pdf/2401.17509.pdf 代码链接:https://github.com/AnythingInAnyScene/…

    2025年11月11日 科技
    000

发表回复

登录后才能评论
关注微信