给我一张图,生成30秒视频!

AI又进阶了?

而且是一张图生成连贯30秒视频的那种。

图片

emm….这质量是不是有点太糊了

要知道这只是从单个图像(第一帧)生成的,而且没有任何显示的几何信息。

这是DeepMind最近提出的一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

简单讲,就是用Transframer来预测任意帧的概率。

这些帧可以以一个或者多个带标注的上下文帧为条件,既可以是先前的视频帧、时间标记或者摄像机标记的视图场景。

Transframer架构

先来看看这个神奇的Transframer的架构是怎么运作的。

图片

论文地址就贴在下面了,感兴趣的童鞋可以看看~https://arxiv.org/abs/2203.09494

为了估计目标图像上的预测分布,我们需要一个能够生产多样化、高质量输出的表达生成模型。

尽管DC Transformer在单个图像域上的结果可以满足需求,但并非以我们需要的多图像文本集 {(In,an)}n 为条件。

因此,我们对DC Transformer进行了扩展,以启用图像和注释条件预测。

我们替换了DC Transformer 的Vision-Transformer风格的编码器,该编码器使用多帧 U-Net 架构对单个DCT图像进行操作,用于处理一组带注释的帧以及部分隐藏的目标DCT图像。

下面看看Transframer架构是如何工作的。

(a)Transframer将DCT图像(a1和a2)以及部分隐藏的目标DCT图像(aT)和附加注释作为输入,由多帧U-Net编码器处理。接下来,U-Net输出通过交叉注意力传递给DC-Transformer解码器,该解码器则自动回归生成与目标图像的隐藏部分对应的DCT Token序列(绿色字母)。(b)多帧U-Net block由NF-Net卷积块、多帧自注意力块组成,它们在输入帧之间交换信息和 Transformer式的残差MLP。

图片

再来看看处理图像输入的Multi-Frame U-Net。

U-Net的输入是由N个DCT帧和部分隐藏目标DCT帧组成的序列,注释信息以与每个输入帧相关联的向量的形式提供。

U-Net的核心组件是一个计算块,它首先将一个共享的NF-ResNet 卷积块应用于每个输入帧,然后应用一个Transformer样式的自我注意块来聚合跨帧的信息。(图2 b)

NF-ResNet块由分组卷积和挤压和激发层组成,旨在提高TPU的性能。

下面,图(a)比较了RoboNet (128×128) 和KITTI视频的绝对和残差DCT表征的稀疏性。

由于RoboNet由只有少数运动元素的静态视频组成,因此残差帧表征的稀疏性显著增加。

而KITTI视频通常具有移动摄像头,导致连续帧中几乎所有地方都存在差异。

但在这种情况下,稀疏性小带来的好处也随之弱化。

图片

多视觉任务强者

通过一系列数据集和任务的测试,结果显示Transframer可以应用在多个广泛任务上。

其中就包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等等。

图片

视频建模

通过Transframer在给定一系列输入视频帧的情况下预测下一帧。

研究人员分别在KITTI和RoboNet两个数据集上,训练了Transframer在视频生成上的性能如何。

图片

对于KITTI,给定5个上下文帧和25采样帧,结果显示,Transframer模型在所有指标上的性能都有所提高,其中LPIPS和FVD的改进是最显而易见的。

图片

在RoboNet上,研究人员给定2个上下文帧和10个采样帧,分别以64×64 和 128×128 的分辨率进行训练,最终也取得了非常好的结果。

图片图片

视图合成

在视图合成方面,研究者通过提供相机视图作为表 1(第 3 行)中描述的上下文和目标注释,以及 统一采样多个上下文视图,直到指定的最大值。

通过提供1-2个上下文视图,在ShapeNet 基准上评估模型Transframer,明显优于PixelNeRF和SRN。

图片

此外在数据集Objectron进行评估后,可以看出当给定单个输入视图时,模型会产生连贯的输出,但会遗漏一些特征,比如交叉的椅子腿。

当给出1个上下文视图,以128×128分辨率合成的视图如下:

图片图片

当再给出2个上下文视图,以128×128分辨率合成的视图如下:

图片图片

多视觉任务

不同的计算机视觉任务通常使用复杂的架构和损失函数来处理。

这里,研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。

这8个任务分别是:单个图像的光流预测、对象分类、检测和分割、语义分割(在2个数据集上)、未来帧预测和深度估计。

图片

结果显示,Transframer学会在完全不同的任务中生成不同的样本,在某些任务中,比如 Cityscapes,该模型产生了质量上好的输出。

但是,在未来帧预测和边界框检测等任务上的模型输出质量参差不齐,这表明在此设置中建模更具挑战性。

以上就是给我一张图,生成30秒视频!的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/1623818.html

(0)
上一篇 2025年2月18日 15:40:44
下一篇 2025年2月18日 15:41:24

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • HTML教程-框架

    框架通过使用框架,你可以在同一个浏览器窗口中显示不止一个页面。每份html文档称为一个框架,并且每个框架都独立于其他的框架。   立即学习“前端免费学习笔记(深入)”; 使用框架的坏处: 开发人员必须同时跟踪更多的HTML文档 很难打印整张…

    编程技术 2025年4月4日
    100
  • Html学习(6) – 框架

    框架标签: 登录后复制框架标签不可以放到 登录后复制登录后复制登录后复制,一般为了代码的可读性,会放到 登录后复制登录后复制登录后复制和 登录后复制登录后复制登录后复制 之间 当框架的大小不想被鼠标拖动而改变,可以在frame标签中加入no…

    编程技术 2025年4月4日
    300
  • Java新手学习框架中常见的坑有哪些?

    作为 java 初学者,在学习框架时要注意以下陷阱:过早依赖框架,导致理解和调试困难。过度依赖框架,使代码难以维护和扩展。缺少对基础架构的理解,导致难以诊断问题。忽略文档和社区,造成错误和浪费调试时间。未能模块化使用框架,影响代码的可维护性…

    2025年4月2日
    100
  • Hibernate框架学习笔记:从概念到实战

    hibernate框架简化了java应用程序中与数据库交互的过程,涉及以下概念:实体(pojo表示数据库表)、会话(数据库交互)、查询(检索数据)、映射(类与表关联)、事务(确保数据一致性)。实战案例演示了创建数据库表、实体类、hibern…

    2025年4月2日
    300
  • Hibernate框架常见问题及解决方案

    hibernate常见问题包括:懒加载问题:使用 @fetch(fetchmode.eager) 或 join fetch 立即加载关联实体。重复插入问题:确保关联实体已持久化,或使用 cascadetype.persist。空指向异常问题…

    2025年4月2日
    300
  • Java框架商业支持下常见问题的解决办法

    使用 java 商业支持解决问题:直接联系供应商或通过合作伙伴网络购买支持级别。商业支持涵盖错误修复、技术支持、产品更新和安全补丁。提交支持请求时,提供详细的错误信息和可复现示例。 Java 框架商业支持下常见问题的解决办法 作为一名 Ja…

    2025年4月2日
    100
  • Java框架商业支持的常见问题解答

    对于关键任务应用程序,商业支持可以提供快速响应和专业知识,对于节省时间和成本至关重要。在选择供应商时,要考虑响应时间、支持范围、渠道、成本和供应商的能力和声誉。商业支持通常涵盖错误修复、诊断、优化和协助。它可以通过电话、电子邮件、聊天和在线…

    2025年4月2日
    200
  • Java框架应用程序的稳定性:避免常见错误

    确保 java 框架应用程序的稳定性至关重要,可通过以下步骤实现:捕获和处理所有潜在异常。避免内存泄漏,如全局变量、循环引用和未关闭资源。防止死锁,避免长时间持有互斥锁并使用超时。保护共享数据,防止竞态条件,如锁或原子变量。设置超时和重试机…

    2025年4月2日
    200
  • Java框架如何平衡功能性和性能之间的关系?

    平衡java框架的功能性和性能至关重要。考虑应用程序对功能的需求与性能影响之间的权衡,选择满足特定要求的框架。通过优化技术(如缓存和轻量级模板引擎)和避免过度使用框架功能来平衡性能。 Java框架:平衡功能性和性能 Java框架提供了一套现…

    2025年4月2日
    200
  • java中用于分布式缓存的框架有哪些?

    java 中分布式缓存框架旨在提高应用性能,减轻数据库负载。其中最常用的框架有:ehcache(轻量、高性能)caffeine(可扩展、高性能)hazelcast(分布式内存数据网格,支持分布式锁、地图等功能) Java 中的分布式缓存框架…

    2025年4月2日
    400

发表回复

登录后才能评论