WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

openai 的 sora 在今年 2 月惊艳亮相,为文本生成视频带来了全新的突破。它可以根据文字输入创作出仿佛来自好莱坞的逼真且充满想象力的影片,让人叹为观止。许多人都对这一创新赞叹不已,认为openai 的表现实现了巅峰之作。

Sora引发的热潮持续不减,同时研究者们也开始认识到AI视频生成技术的巨大潜力,这一领域正受到越来越多人的关注。

然而,当前 AI 视频生成领域,大部分算法研究将重点放在了通过文本提示生成视频,对于多模态输入,特别是图片与文本结合的场景,并没有进行深入探讨或广泛应用。这种偏向降低了生成视频的多样性和可控制性,限制了从静态图像到动态视频的转换能力。

另一方面,现有的大部分视频生成模型对生成视频内容缺乏可编辑性的支持,无法满足用户对生成视频进行个性化调整的需求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

提示:把熊猫变成熊,并且让它跳舞。(Change the panda to a bear and make it dance.)

本文,来自 SEEKING AI、哈佛大学、斯坦福大学以及北京大学的研究者们共同提出了一种创新的基于图片 – 文本的视频生成编辑统一框架,名为 WorldGPT。该框架建立在 SEEKING AI 与上述顶尖高校共同研发的 VisionGPT 框架之上,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

该框架的另一个显著优势在于其无需进行训练,这使得技术门槛大幅降低,同时也使得部署和使用变得非常方便。用户可以直接使用模型进行创作,而无需关注背后繁琐的训练过程。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

论文地址:https://arxiv.org/pdf/2403.07944.pdf论文标题:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下来我们看看 WorldGPT 在多种复杂视频生成控制场景中的示例展示。

背景替换 + 生成视频

提示:「一支船队在呼啸的风暴中奋力前行,他们的船帆在无情风暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

背景替换 + 风格化 + 生成视频

提示:「一条可爱的龙在城市的街道上喷火。(A cute dragon is spitting fire on an urban street.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

对象替换 + 背景替换 + 生成视频

提示:「一个赛博朋克风格的机器人在霓虹灯照亮的反乌托邦城市景观中疾驰,高耸的全息图和数字衰变的反射投影到其光滑的金属机身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

逻辑智能 逻辑智能

InsiderX:打造每个团队都能轻松定制的智能体员工

逻辑智能 83 查看详情 逻辑智能

从上面的示例可以看出,WorldGPT 在面对复杂视频生成指令时具有以下优点:

1)较好的保持了原输入图像的结构和环境;

2)生成符合图片 – 文本描述的生成视频,展现出了强大的视频生成定制能力;

3)可以通过 prompt 对生成视频进行定制化编辑。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

了解更多有关 WorldGPT 的原理、实验和用例的信息,请查看原论文。

VisonGPT

前面已经提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下来我们简单介绍一下有关 VisionGPT 的信息。

VisionGPT 是由 SeekingAI、斯坦福大学、哈佛大学及北京大学等世界顶尖机构联合研发,是一款开创性的开放世界视觉感知大模型框架。该框架通过智能整合和决策选择最先进的 SOTA 大模型,提供了强大的 AI 多模态图像处理功能。

VisionGPT 的创新之处主要体现在三个方面:

首先,它以大型语言模型(例如 LLaMA-2)为核心,将用户的 prompt 请求分解成详细的步骤需求,并自动化调用最合适的大模型进行处理;其次,VisionGPT 自动接受并融合来自多个 SOTA 大模型产生的多模态输出,从而生成针对用户需求的图像处理结果;最后,VisionGPT 具有极高的灵活性和多功能性,无需用户对模型进行微调,就能够支持包括文本驱动的图像理解、生成、编辑在内的广泛应用场景。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

论文地址:https://arxiv.org/pdf/2403.09027.pdf论文标题:VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

从上面可以看出,VisionGPT 无需 fine-tune,即可以轻松实现 1)开放世界的实例分割;2)基于 prompt 的图像生成和编辑功能等。VisionGPT 的工作流程如下图所示。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

更多详细信息可以参考论文。

VisionGPT-3D

此外,研究者们还推出了 VisionGPT-3D,旨在解决从文本到视觉元素转换中的一大挑战:如何高效、准确地将 2D 图像转换成 3D 表示。在这个过程中,经常面临算法与实际需求不匹配的问题,从而影响最终结果的质量。VisionGPT-3D 通过整合多种最先进的 SOTA 视觉大模型,提出了一个多模态框架,优化了这一转换流程。其核心创新点在于自动选择最适合的视觉 SOTA 模型和 3D 点云创建算法,并且根据文本提示等多模态输入生成最符合用户需求的输出的能力。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

论文地址:https://arxiv.org/pdf/2403.09530v1.pdf论文标题: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息,请参考原论文。

以上就是WorldGPT来了:打造类Sora视频AI智能体,「复活」图文的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/424279.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 10:51:55
下一篇 2025年11月7日 10:57:23

相关推荐

  • 从初学到专业:掌握这五种前端CSS框架

    CSS是网站设计中重要的一部分,它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用,通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架,从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发,具有可定制的响应式网格系统、…

    2025年12月24日
    200
  • 初学者如何快速入门CSS3技术

    初学者如何快速入门CSS3技术 CSS3是一种用于网页设计的样式表语言,它为开发者提供了丰富的样式特性和效果。对于初学者来说,学习CSS3技术可能会感觉困难和复杂,但只要掌握了基本的概念和语法,就能快速入门并开始使用CSS3来设计出令人印象深刻的网页。 本文将以简单明了的方式介绍CSS3的一些基本概…

    2025年12月24日
    000
  • 学习并掌握常见的canvas框架:绘图和动画制作的入门指南

    入门canvas框架:学习使用常见的canvas框架进行绘图和动画制作,需要具体代码示例 随着前端技术的快速发展,网页设计中的动态效果日益重要。而canvas作为一种用于在浏览器上绘制图形的HTML元素,已经成为了实现各种动画效果和游戏开发的重要工具。为了更加高效地使用canvas,许多优秀的can…

    2025年12月21日
    000
  • 从零开始学习canvas:掌握基础知识的方法指南

    零基础入门canvas:从头开始学习canvas方法的基本知识,需要具体代码示例 当我们谈到在网页上绘制图形和动画时,HTML5中的canvas元素无疑是一个非常有用的工具。虽然对于初学者来说,canvas可能会有些令人生畏,但只要有一个良好的基础知识并且跟着我们一步一步地学习,你会发现其实并不难。…

    2025年12月21日
    000
  • JavaScript快速入门:获取HTTP状态码

    快速入门:使用JavaScript获取HTTP状态码,需要具体代码示例 引言:在开发Web应用程序时,我们经常需要与服务器进行交互并获取HTTP状态码。HTTP状态码是服务器响应请求时返回的一个三位数字,它们提供了对请求状态的基本诊断和信息。在本文中,我们将学习如何使用JavaScript获取HTT…

    2025年12月21日
    000
  • HTML入门基础

    本篇文章主要介绍HTML入门基础,感兴趣的朋友参考下,希望对大家有所帮助。 标记、标签、元素 标签和元素通常是描述同样的意思,但是严格来说,一个html元素包含了开始标签和结束标签。 一个标准的HTML页面 <!–可以插入脚本,样式文件(css)以及各种meta信息页面标题 <!–可…

    2025年12月21日 好文分享
    000
  • 麦子学院bootstrap入门视频资料分享

    bootstrap是由twitter发布一款目前最受欢迎的前端框架。bootstrap基于 html、css、javascript的,它简洁灵活,将常见的css布局、常用组件和javascript插件进行了完整并完善的封装,能让没有经验的前端工程师和后端开发工程师都迅速掌握和使用,大大提高开发效率,…

    2025年12月21日
    000
  • 麦子学院bootstrap入门视频的资料(课件源码)推荐

    bootstrap是由twitter发布一款目前最受欢迎的前端框架。bootstrap基于 html、css、javascript的,它简洁灵活,将常见的css布局、常用组件和javascript插件进行了完整并完善的封装,能让没有经验的前端工程师和后端开发工程师都迅速掌握和使用,大大提高开发效率,…

    2025年12月21日
    000
  • 哪种 C++ 框架最适合入门学习?

    对于初学者来说,最佳的 c++++ 框架包括:qt 框架:跨平台 gui 开发、数据库操作和网络编程boost 库:数据结构、算法和标准库扩展wxwidgets:跨平台 gui 应用开发eigen 库:科学计算和矩阵操作opencv 库:图像处理和计算机视觉 为初学者轻松入门:探索最适合的 C++ …

    2025年12月18日
    000
  • C++ 框架入门问答宝典:手把手解决新手难题

    c++++ 框架是预先构建的代码库,提供应用程序的基础结构,帮助开发者高效地创建可维护的应用程序。市面上流行的 c++ 框架包括 boost、qt、eigen 和 opencv。在选择框架时,需要考虑应用程序类型、性能需求、可维护性以及生态系统支持。入门方法包括下载和安装框架、创建项目、导入头文件,…

    2025年12月18日
    000
  • C++ 入门加速器:专为初学者设计的快速学习指南

    c++++ 初学者指南提供了环境准备、实战案例、变量类型、控制流、函数和面向对象编程的入门介绍,帮助用户从零开始快速学习 c++。 C++ 入门加速器:专为初学者设计的快速学习指南 环境准备: 安装 C++ 编译器(例如:Visual Studio、GCC)准备一个文本编辑器(例如:记事本、Subl…

    2025年12月18日
    000
  • 学习C语言的基础知识:初学者的入门指南

    C语言作为一门广泛应用于软件开发和嵌入式系统设计的编程语言,对于初学者来说具有很大的吸引力。学习C语言不仅可以为进一步学习其他高级编程语言打下坚实的基础,还可以帮助初学者更好地理解计算机的工作原理。本文将为初学者介绍C语言的基础知识,帮助他们顺利入门。 编程环境的搭建:在开始学习C语言之前,我们首先…

    2025年12月17日
    000
  • 入门学习C语言的五款编程软件

    C语言作为一门广泛应用的编程语言,对于想从事计算机编程的人来说是必学的基础语言之一。然而,对于初学者来说,学习一门新的编程语言可能会有些困难,尤其是缺乏相关的学习工具和教材。在本文中,我将介绍五款帮助初学者入门C语言的编程软件,帮助你快速上手。 第一款编程软件是 Code::Blocks。Code:…

    2025年12月17日
    000
  • 寻找最适合初学C语言的软件,快速掌握!

    找到最适合学习C语言的软件,轻松入门! C语言是一门广泛应用于系统软件、嵌入式设备以及游戏开发领域的编程语言。学习C语言可以帮助我们更好地理解计算机底层工作原理,并提升编程能力。然而,对于初学者而言,学习一门新的编程语言可能会感到有些困难。 针对初学者的需求,市面上有许多针对C语言学习的软件工具可供…

    2025年12月17日
    000
  • C++游戏开发入门:从零开始实现自己的游戏项目

    C++是一种强大的编程语言,被广泛应用于游戏开发领域。如果你对游戏开发感兴趣,并且有一定的编程基础,那么本文将帮助你入门C++游戏开发,并从零开始实现自己的游戏项目。 第一步:准备工作在开始之前,确保你已经安装了一个C++编译器,比如Microsoft Visual Studio或者Code::Bl…

    2025年12月17日
    000
  • c语言学好,都要学什么?

    c语言是一门通用计算机编程语言,应用广泛。有人问c语言要怎么学,需要学好什么?首先小编要说一点,计算机小白对c语言上手可能不是很容易,下面请和小编一起了解一下c语言吧,看看你需要学好哪些部分。 首先你需要一周的时间掌握最基本的内容: 1、常用的基本数据类型(int,float,double,char…

    2025年12月17日
    000
  • c语言需要学到什么程度?

    对计算机有一定了解的朋友应该知道,c语言是一门通用计算机编程语言,应用广泛,是一门永远都不会过时的语言。现在有很多人在学习c语言。大学里的理科生几乎都是要学习c语言程序设计这门课。可是很多人都不知道自己该怎么学,又要学到什么程度?下面请听小编和大家好好讲讲。 对于C语言要学到什么程度,小编想和大家说…

    2025年12月17日
    000
  • 怎么精通C语言?

    对于c语言,很多人都知道,可能也有很多人大学甚至中学也学习过,可能只是熟悉或者仅仅了解,能说自己精通的应该能在前面的基础上能砍掉大部分人,所以有人就想知道,那该怎样才能精通c语言呢? 一. 先具备一定的计算机基础,为后续提升做好准备 是科班出身的直接学习C语言,算是驾轻就熟,相对来说障碍少一些。不是…

    2025年12月17日
    000
  • 现在学c语言用什么软件

    c语言是一门面向过程、抽象化的通用程序设计语言,广泛应用于底层开发。c语言能以简易的方式编译、处理低级存储器。c语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效率程序设计语言。有很多朋友自学了一段时间后想要找一些比较好用的c语言编程软件,下面我将给大家一些推荐。 现在有很多C语言编…

    2025年12月17日
    000
  • Python中安装matplotlib:一个简单的快速入门指南

    标题:快速入门:Python中安装matplotlib的简易指南 在Python中,matplotlib是一个广泛使用的数据可视化库,它提供了丰富的绘图功能,能够以简单易懂的方式展示数据。本文将介绍如何在Python中安装matplotlib,并提供具体的代码示例,以帮助初学者快速入门。 一、安装P…

    2025年12月13日
    000

发表回复

登录后才能评论
关注微信