Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

原标题:anything in any scene: photorealistic video object insertion

论文链接:https://arxiv.org/pdf/2401.17509.pdf

代码链接:https://github.com/AnythingInAnyScene/anything_in_anyscene

作者单位:小鹏汽车

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

论文思路

逼真的(realistic)视频仿真(video simulation)在从虚拟现实到电影制作等各种应用领域都显示出巨大的潜力。尤其是在现实世界中捕捉视频不切实际或成本高昂的情况下。视频仿真中的现有方法通常无法准确地建模光照环境、表示物体几何形状或实现高水平的照片级真实感。本文提出了 Anything in Any Scene ,这是一种新颖且通用的真实视频仿真框架,可以将任何物体无缝插入到现有的动态视频中,并强调物理真实感。本文提出的总体框架包含三个关键过程:1)将真实的物体集成到给定的场景视频中,并放置适当的位置以确保几何真实感(geometric realism);2)估计天空和环境光照分布并模拟真实阴影,增强光照真实感(light realism);3)采用风格迁移网络来细化最终的视频输出,以最大限度地提高照片真实感(photorealism)。本文通过实验证明 Anything in Any Scene 框架可以生成具有出色的几何真实感、光照真实感和照片真实感的仿真视频。通过显着缓解与视频数据生成相关的挑战,本文的框架为获取高质量视频提供了高效且经济高效的解决方案。此外,其应用远远超出了视频数据增强的范围,在虚拟现实、视频编辑和各种其他以视频为中心的应用中显示出广阔的潜力。

主要贡献

本文引入了一种新颖且可扩展的 Anything in Any Scene 视频仿真框架,能够将任何物体集成到任何动态场景视频中。

这篇文章的结构独具特色,着重于在视频仿真中保持几何、光照和照片的真实感,以确保输出结果的高质量和真实性。

经过广泛验证,结果表明该框架具备制作高度逼真视频仿真的能力,从而显著拓展了该领域的应用范围和发展潜力。

钉钉 AI 助理 钉钉 AI 助理

钉钉AI助理汇集了钉钉AI产品能力,帮助企业迈入智能新时代。

钉钉 AI 助理 21 查看详情 钉钉 AI 助理

论文设计

图像和视频仿真在从虚拟现实到电影制作的各种应用中都取得了成功。通过逼真的图像和视频仿真生成多样化和高质量的视觉内容的能力具有推动这些领域发展的潜力,能够引入新的可能性和应用。尽管在现实世界中捕获的图像和视频的真实性非常宝贵,但它们经常受到长尾分布的限制。这导致常见场景的代表性过高,而罕见但关键的情况的代表性不足,从而提出了称为 out-of-distribution problem 的挑战。通过视频采集和编辑来解决这些限制的传统方法被证明是不切实际的或成本过高,因为难以涵盖所有可能的情况。视频仿真的重要性,特别是通过将现有视频与新插入的物体相集成,对于克服这些挑战变得至关重要。通过生成大规模、多样化和逼真的视觉内容,视频仿真有助于增强虚拟现实、视频编辑和视频数据增强方面的应用。

然而,考虑物理真实性生成逼真的仿真视频仍然是一个具有挑战性的开放问题。现有方法通常因专注于特定设置而表现出局限性,特别是室内环境[9,26,45,46,57]。这些方法可能无法充分解决室外场景的复杂性,包括不同的光照条件和快速移动的物体。依赖 3D 模型配准的方法仅限于集成有限类别的物体 [12,32,40,42]。许多方法忽略了一些重要因素,例如光照环境建模、正确的物体放置和实现真实感 [12, 36]。失败的案例如图 1 所示。因此,这些限制极大地限制了它们在需要高度可扩展、几何一致和真实场景视频仿真的领域(例如自动驾驶和机器人)中的应用。

本文提出了一个用于解决这些挑战的逼真视频物体插入的综合框架 Anything in Any Scene。该框架设计具有通用性,适用于室内和室外场景,保证几何真实感、光照真实感和照片真实感等方面的物理准确性。本文的目标是创建视频仿真,不仅有利于机器学习中的视觉数据增强,而且适用于各种视频应用,例如虚拟现实和视频编辑。

本文的 Anything in Any Scene 框架的概述如图 2 所示。本文在第 3 节中详细介绍了本文新颖且可扩展的流程,用于构建场景视频和物体网格(object mesh)的多样化资产库。本文介绍了一种视觉数据查询引擎,旨在利用描述性关键词从视觉查询中高效检索相关视频片段。接下来,本文提出两种生成 3D meshes 的方法,利用现有 3D 资产以及多视图图像重建。这允许不受限制地插入任何所需的物体,即使它非常不规则或语义较弱。在第 4 节中,本文详细介绍了将物体集成到动态场景视频中的方法,重点是保持物理真实感。本文设计了第 4.1 节中描述的物体放置和稳定方法,确保插入的物体稳定地锚定(anchored)在连续的视频帧上。为了解决创建逼真的光照和阴影效果的挑战,本文估计天空和环境光照并在渲染过程中生成逼真的阴影,如第 4.2 节所述。生成的仿真视频帧不可避免地包含与现实世界捕获的视频不同的不现实的伪影,例如噪声水平、色彩保真度和清晰度方面的成像质量差异。本文在 4.3 节中采用风格迁移网络来增强照片真实感。

从本文提出的框架生成的仿真视频达到了高度的光照真实感、几何真实感和照片真实感,在质量和数量上都优于其他视频,如第 5.3 节所示。本文在5.4节中进一步展示了本文的仿真视频在训练感知算法中的应用,以验证其实用价值。Anything in Any Scene 框架能够创建大规模、低成本的视频数据集,用于具有时间效率和逼真视觉质量的数据增强,从而减轻视频数据生成的负担,并有可能改善长尾分布和分布外的挑战。凭借其通用的框架设计,Anything in Any Scene 框架可以轻松整合改进的模型和新模块,例如改进的 3D mesh 重建方法,进一步增强视频仿真性能。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)图 1. 光照环境估计错误、物体摆放位置错误和纹理风格不真实的仿真视频帧示例,这些问题使得图像缺乏物理真实感。Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)图 2. 用于逼真视频物体插入的 Anything in Any Scene 框架概述Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)图 3. 用于放置物体的驾驶场景视频示例。每幅图像中的红点是物体插入的位置。

实验结果

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

图 4. 原始天空图像、重建的 HDR 图像及其相关的太阳光照分布图的示例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

图 5. 原始和重建的 HDR 的环境全景图像示例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

图 6. 为插入的物体生成阴影的示例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

图 7. 使用不同风格迁移网络对 PandaSet 数据集的仿真视频帧进行定性比较。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

图 8. PandaSet 数据集的仿真视频帧在各种渲染条件下的定性比较。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

总结:

本文提出了一个创新且可扩展的框架,”Anything in Any Scene”,专为逼真的视频仿真而设计。本文提出的框架将各种物体无缝集成到不同的动态视频中,确保保留几何真实感、光照真实感和照片真实感。通过广泛的演示,本文展示了其在缓解视频数据收集和生成相关挑战方面的功效,提供了适用于各种场景的经济高效且省时的解决方案。本文的框架的应用在下游感知任务中显示出显着的改进,特别是在解决目标检测中的长尾分布问题方面。本文框架的灵活性允许直接集成每个模块的改进模型,本文的框架为逼真视频仿真领域的未来探索和创新奠定了坚实的基础。

引用:

Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509, 2024.

以上就是Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/620302.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:13:18
下一篇 2025年11月11日 06:14:18

相关推荐

  • 如何使用纯CSS实现在容器中反弹的小球(附源码)

    本篇文章给大家带来的内容是关于如何使用纯css实现在容器中反弹的小球(附源码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 效果预览 源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读 定义 dom,…

    2025年12月24日
    000
  • 如何使用纯CSS实现菱形loader效果(附源码)

    本篇文章给大家带来的内容是关于如何使用纯css实现菱形loader效果(附源码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 效果预览 源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读 定义 dom…

    2025年12月24日
    000
  • html中如何加入视频_在HTML页面嵌入视频播放器【播放】

    HTML提供五种视频嵌入方法:一、用标签嵌入本地视频,支持多格式与备用提示;二、用iframe嵌入YouTube视频;三、JavaScript动态创建控制;四、自动播放需静音配合用户交互;五、移动端需playsinline等属性适配。 如果您希望在网页中展示视频内容,HTML 提供了原生的 标签来直…

    2025年12月23日
    000
  • HTML5 视频画廊中动态管理封面图的实现

    本文提供了一份关于在html5视频画廊中实现动态封面图管理的全面指南。它解决了管理多个视频元素及其对应封面图的常见问题,演示了如何利用javascript、css和正确的html结构,在视频播放时隐藏封面图,并在暂停时重新显示,以提供无缝的用户体验。 在现代网页设计中,视频画廊是常见的交互元素,用于…

    2025年12月23日 好文分享
    000
  • 怎么用html5看视频_HTML5视频播放器使用与故障排除

    HTML5通过标签实现原生视频播放,支持controls、尺寸设置及多格式兼容;需注意浏览器格式支持差异、服务器MIME类型配置、CORS跨域限制及自动播放策略,可通过JavaScript检测格式支持、添加poster封面图等提升体验。 在现代网页中,HTML5 提供了原生支持视频播放的能力,无需依…

    2025年12月23日
    000
  • html5使用video与canvas实现视频截图 html5使用多媒体融合的技巧

    首先通过结合HTML5的video与canvas元素实现视频截图,具体步骤包括嵌入视频和canvas标签,利用JavaScript将当前视频帧绘制到canvas并导出图像数据;接着通过预加载元数据、调整输出质量、使用离屏canvas及支持摄像头流等优化技巧提升性能;该技术广泛应用于视频会议拍照、在线…

    2025年12月23日
    000
  • html视频poster属性怎么用_html视频封面图设置方法

    poster属性用于设置video元素的封面图,提升美观与体验;2. 用法为在标签添加poster=”图片地址”,推荐配合controls和使用;3. 封面图建议尺寸匹配视频、格式选JPG或PNG、大小适中,并可截取视频关键帧;4. 注意路径正确,未设置时显示首帧,部分移动端…

    2025年12月23日
    000
  • html视频playsinline属性作用_html视频内联播放功能

    playsinline属性用于视频内联播放,避免移动设备自动全屏;添加playsinline和webkit-playsinline可提升兼容性,适用于短视频嵌入等场景,需注意安卓厂商实现差异及autoplay时需静音。 在HTML中,playsinline 是一个用于 标签的布尔属性,主要作用是**…

    2025年12月22日
    000
  • 视频在HTML里怎么设置自动播放_HTML视频设置autoplay属性方法详解

    答案:HTML视频自动播放需结合autoplay和muted属性以提高成功率。1. 添加autoplay实现自动播放;2. 配合muted避免浏览器拦截;3. 不同浏览器策略不同,静音播放兼容性更好;4. 可用JavaScript检测播放状态并处理失败情况。 在HTML中让视频自动播放,主要通过au…

    2025年12月22日
    000
  • HTML视频字幕怎么添加_视频字幕可访问性实现方法

    答案:HTML视频字幕通过标签和WebVTT文件实现,确保路径正确、格式合规并用CSS或播放器库自定义样式,WebVTT因标准支持优于SRT和ASS。 HTML视频字幕的添加,本质上是为了提升视频的可访问性,让更多人能理解视频内容,包括听力障碍人士和使用不同语言的观众。实现方式主要依赖于 标签,配合…

    2025年12月22日
    000
  • HTML如何嵌入视频?video标签的用法是什么?

    最核心且直接的html视频嵌入方式是使用标签,通过src属性或标签指定视频源以确保兼容性,结合controls、preload、poster等属性优化播放体验与加载性能,并利用javascript api实现自定义控制、字幕支持、全屏及画中画等高级功能,最终通过提供多格式视频源(如mp4和webm)…

    2025年12月22日
    000
  • track标签的作用?视频字幕怎么添加?

    track标签用于为html5的和元素添加文本轨道,最常见的应用是视频字幕,通过结合webvtt格式的字幕文件实现;2. 使用时需在标签内嵌套标签,设置kind(如subtitles、captions等)、src(指向.vtt文件)、srclang(字幕语言)、label(用户可见名称)和defau…

    2025年12月22日 好文分享
    100
  • HTML5视频怎么添加?video标签支持哪些格式?

    html5视频在某些浏览器无法播放的主要原因是视频格式和编码不兼容。1. 首先需提供多种格式,如mp4(h.264编码)、webm(vp8/vp9编码)和ogg(theora编码),以覆盖不同浏览器的支持范围;2. 确保视频文件内部编码正确,即使文件后缀为.mp4,也必须使用h.264视频和aac音…

    2025年12月22日
    000
  • 怎么嵌入HTML视频?媒体播放新手入门

    在html中嵌入视频的关键是使用标签并正确设置相关属性。1. 使用标签作为容器,定义width和height设置播放器尺寸;2. 添加controls属性以启用默认播放控制条;3. 通过多个标签提供不同格式的视频源(如mp4和webm),确保浏览器兼容性;4. 设置回退文本提示不支持html5视频的…

    2025年12月22日 好文分享
    000
  • html文件怎么转换成mp4

    将 HTML 文件转换为 MP4:使用屏幕录像软件录制 HTML 页面。导出视频为 MP4 格式。转换音频为 MP3(可选)。使用视频编辑软件编辑视频(可选)。最终导出为 MP4 格式。 如何将 HTML 文件转换为 MP4 步骤 1:使用屏幕录像软件 使用屏幕录像软件(如 OBS Studio 或…

    好文分享 2025年12月22日
    000
  • 怎样在HTML里放视频

    在HTML里添加视频的方法是,在html代码中添加一个标签,然后在标签内部添加需要的视频就可以了,例如【】。 本文操作环境:windows10系统、html 5、thinkpad t480电脑。 要在html中插入一段视频是非常简单的,因为我们有现成的video标签,通过该标签我们可以很方便地实现插…

    2025年12月21日
    000
  • html怎么加视频

    html添加视频的方法:1、使用“”语句;2、使用“”语句;3、使用“”语句。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在 HTML 中播放视频的方法有很多种。 1、使用 标签 是 HTML 5 中的新标签。 立即学习“前端免费学习笔记(深入)”; 标签的作用是在 …

    2025年12月21日
    000
  • 如何在HTML中插入视频

    在HTML中,可以使用video标签插入视频,语法格式“”;video标签可以定义视频,支持MP4、WebM、Ogg三种视频格式。 本教程操作环境:windows7系统、CSS3&&HTML5版、Dell G3电脑。 视频是通过插件(比如 Flash)来显示的。然而,并非所有浏览器都…

    2025年12月21日
    000
  • html中怎么放视频

    在html中,可以使用“”标签来插入视频,语法格式“”。video标签元素支持三种视频格式:MP4、WebM、Ogg。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 html插入视频 您的浏览器不支持 HTML5 video 标签。 效果图: 立即学习“前端免费学习笔记(…

    2025年12月21日
    000
  • 怎么在html中插入视频和音频

    插入视频的理想解决方法: HTML5 + + @@@###@@@ (视频教程推荐:html视频教程) 代码如下: @@@###@@@ 插入音频的理想解决方法: 立即学习“前端免费学习笔记(深入)”; @@@###@@@ 下面的例子使用了两个不同的音频格式。Html5  元素会尝试以 mp3 或 og…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信