一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

当前,大型模型的惊人创新能力持续影响着创意领域,尤其是像Sora这样的视频生成技术代表。虽然Sora已经引领了新一代潮流,但现在或许值得大家关注一下苹果的最新研究成果。

苹果的研究者最近发布了一个名为「Keyframer」的框架,它可以利用大型语言模型生成动画。这个框架允许用户通过自然语言提示来轻松地为静态2D图像创建动画。这项研究展示了语言模型在设计动画方面的潜力,为动画设计师提供了更加高效且直观的工具。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

论文地址:https://arxiv.org/pdf/2402.06071.pdf

可图大模型 可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型 32 查看详情 可图大模型

具体而言,该研究结合了基于语言提示设计工件的新兴设计原则和 LLM 的代码生成能力,构建了一个新的 AI 驱动的动画工具 Keyframer。通过 Keyframer,用户可以通过自然语言提示,从静态 2D 图像创建动画插图。借助 GPT-4,Keyframer 可以生成 CSS 动画代码,使输入的 SVG(Scalable Vector Graphic)动画化。

除此以外,Keyframer 支持用户通过多种编辑器类型直接编辑生成的动画。

用户可以通过反复的提示和请求,利用LLM生成的设计变体来不断完善他们的设计,从而在新的设计方向上进行思考。不过,目前Keyframer还没有对外公开。

之所以做这项研究,苹果表示 LLM 在动画中的应用尚未得到充分探索,并带来了新的挑战,例如用户如何有效地用自然语言描述运动。现阶段虽然文生图工具如 Dall・E 和 Midjourney 等效果出色,但动画设计需要考虑更复杂的因素,例如时间以及协调性,这些因素很难在单个提示中全面概括。

用户只需上传图像,并在提示框中输入类似于“让星星闪烁”的内容,然后点击生成即可查看这项研究的效果。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

用户可以在一个批次中生成多个动画设计,并在单独的窗口中调整颜色代码和动画持续时间等属性。无需任何编码经验,因为 Keyframer 会自动将这些更改转换为 CSS,代码本身也是完全可编辑的。这种基于描述的方法比其他形式的人工智能生成动画简单得多,后者通常需要多个不同的应用程序和一些编码经验。

Keyframer 介绍

Keyframer 是一款由 LLM 驱动的应用程序,旨在从静态图像创建动画。Keyframer 可以充分利用 LLM 的代码生成能力,以及静态矢量图(SVG)的语义结构,从而根据用户提供的自然语言提示生成动画。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

输入:该系统提供了一个输入区域,用户可以在其中粘贴他们想要动画化的 SVG 图像代码(SVG 是一种标准且流行的图像格式,在插图中因其可伸缩性及在多个平台上的兼容性而常用)。在 Keyframer 中,SVG 的渲染显示在代码编辑器旁边,以便用户可以预览图像的视觉设计,如图 2 所示,土星插图的 SVG 代码包含了如天空、光环等标识符。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

GPT 提示:该系统允许用户输入自然语言提示来创建动画。用户可以请求单个设计(让行星旋转)或多个设计变体(创建 3 个星星闪烁的设计),之后单击「生成动画」按钮开始请求。在将用户请求传递给 GPT 之前,该研究会用完整的原始 SVG XML 完善其提示,并指定 LLM 响应的格式。

GPT 输出:一旦提示请求开始,GPT 就会传输响应,该响应由一个或多个 CSS 片段组成,如图 3 所示。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

渲染:渲染部分包括(1)每个动画进行可视化渲染以及由 LLM 生成的 1 句解释(2)一系列用于修改设计的编辑器。

其中代码编辑器使用 CodeMirror 实现;属性编辑器为编辑代码提供了特定于属性的 UI,例如为了编辑颜色,该研究提供了一个颜色选择器。图 5 显示了代码编辑器与属性编辑器图示。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

迭代:为了支持用户在动画创建过程 (DG1) 中进行更深入的探索,该研究还提供了一项功能,允许用户使用提示在生成的动画上迭代构建。每个生成的设计下面都有一个按钮「 + Add New Prompt 」;单击此按钮会在页面底部打开一个新表单,供用户使用新提示扩展其设计。

保存设计的侧边栏以及摘要。该系统允许用户对设计加注星标进行收藏并将其添加到侧边栏,如图 6 右侧所示。此外,该系统还有一个摘要模式,其能隐藏所有文本编辑器并显示动画及其提示,使用户能够快速重新访问以前的提示和设计。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

实验过程中,苹果团队选择了 13 名参与者(6 名女性,7 名男性)试用 Keyframer。表 1 为参与者的一些信息及其掌握的技能。

甚至专业动作设计师「EP13」也看到了 Keyframer 扩展其能力的潜力:「我有些担心这些工具会取代我们的工作,因为它的潜力如此之大。但细细想来,这项研究只会提高我们的技能。应该是件值得高兴的事情。」

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

总体而言,参与者对 Keyframer 的使用体验感到满意。参与者给出的平均分数为 3.9 ,介于满意 (4) 和中立 (3) 之间。参与者生成了 223 种设计。平均来看,每位参与者生成 17.2 个设计。图 8 显示了两个参与者的最终动画示例。

一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

更多技术细节请参阅原论文。

以上就是一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/621123.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:31:52
下一篇 2025年11月11日 06:33:03

相关推荐

  • XML Schema的complexType如何定义?

    complextype在xml schema中用于定义包含子元素、属性或两者兼具的复杂数据结构,其核心作用是作为结构模板。它支持四种内容模型:1. 空内容(仅含属性,无文本和子元素);2. 简单内容(通过扩展simpletype实现,包含文本和属性);3. 元素内容(仅含子元素,常用sequence…

    2025年12月17日
    000
  • XLink的simple link和extended link有什么区别?

    xlink中simple link和extended link最直接的区别在于复杂度与链接关系的表达能力。simple link是单向点对点连接,具备内联、单向性和简单属性,适用于网页超链接或xml文档对外部资源的引用;2. extended link则支持多资源、多向性关联,具备外联或内联特性,能…

    2025年12月17日
    000
  • RSS如何实现多端同步?

    要实现rss多端同步,核心在于选择一个支持云端同步的rss阅读服务作为中枢。具体步骤包括:1. 注册如feedly、inoreader、newsblur等提供云端同步功能的服务账号;2. 导入或添加订阅源并存储于云端;3. 在各设备上下载支持该服务的客户端应用并登录同一账号以实现数据同步;4. 可选…

    2025年12月17日
    000
  • XML怎样处理空白字符?

    xml中空白字符的处理取决于其位置和上下文,分为“有意义的空白”和“无意义的空白”。1. 位于元素内容中的空白(如空格、换行、制表符)被视为数据的一部分,会被保留;2. 出现在标签之间的空白(如缩进、对齐用的空格)通常被解析器忽略或规范化;3. 可通过 xml:space=”preser…

    2025年12月17日
    000
  • XML如何实现数据脱敏?

    xml数据脱敏的核心方法是结合xslt和编程语言实现。1. 使用xslt可通过xpath精准定位敏感元素并应用脱敏规则,适合结构固定的xml;2. 编程语言(如java、python、c#)适用于复杂逻辑或大规模数据处理,提供更高灵活性和控制力;3. 脱敏策略包括遮蔽、匿名化、假名化、哈希、删除等,…

    2025年12月17日
    000
  • XML如何定义状态码?

    xml不直接定义状态码,因为它是数据描述语言,专注于结构化信息而非处理结果。1.开发者可在xml中使用特定元素或属性表示状态信息,如用元素包裹状态或作为属性。2.常见模式包括独立状态/错误元素、根元素属性模式及soap faults。3.选择方式需考虑复杂度、协议规范、可扩展性及团队一致性,独立元素…

    2025年12月17日
    000
  • RSS如何设置主题色?

    rss本身没有主题色设定,显示风格取决于阅读工具或网站。1.若使用独立rss阅读器(如feedly、inoreader等),可在设置中更改主题或颜色模式;2.若在网页展示rss内容,则需通过css控制样式实现个性化显示。 RSS本身并没有一个叫做“主题色”的设定。说白了,它就是一堆纯粹的内容数据,就…

    2025年12月17日
    000
  • XML如何定义元数据?

    xml定义元数据通过元素和属性描述“关于数据的数据”,如文件的创建日期、作者等,1.首先利用元素和属性承载元数据,例如图书信息中的title、author、publicationdate等;2.其次使用命名空间(namespaces)解决命名冲突,确保不同来源的元数据可共存且无歧义,如dc:titl…

    2025年12月17日
    000
  • RSS怎样处理反爬机制?

    处理rss反爬机制的关键在于模拟正常用户行为并绕过常见限制。1. 使用user-agent伪装、请求头设置、延迟请求、ip代理、cookie处理、验证码识别、动态内容抓取等技术手段;2. 常见反爬机制包括ip封禁、user-agent检测、频率限制、验证码和动态内容;3. 应对策略有轮换user-a…

    2025年12月17日
    000
  • XML如何实现水印添加?

    xml无法直接承载视觉水印,但可通过两种方式实现“水印”功能。1.元数据嵌入:在xml内部添加非视觉的可追溯信息,如版权信息、版本信息、唯一标识符等,作为“数字指纹”,适用于数据溯源和内部管理;2.基于转换的视觉水印:在xml转换为html、pdf或svg等格式时,通过xslt、css或应用程序逻辑…

    2025年12月17日
    000
  • RSS怎样处理流量控制?

    rss流量控制的核心策略包括:1.合理设置更新频率,通过标签设定检查更新的间隔;2.使用条件性get请求减少不必要的数据传输;3.压缩rss文件以减小流量消耗;4.优化内容结构,避免冗余信息;5.采用增量更新机制;6.客户端配合调整更新策略。此外,监控流量可分析服务器日志、使用web分析工具或专门服…

    2025年12月17日
    000
  • RSS如何设置响应式布局?

    rss本身不涉及响应式布局,但展示其内容的界面或阅读器可通过技术手段实现响应式。1. 使用html5语义标签构建灵活结构;2. 利用css媒体查询适配不同屏幕;3. 采用flexbox或grid实现弹性布局;4. 图片设置max-width:100%保持比例;5. 避免固定宽度使用相对单位;6. r…

    2025年12月17日
    000
  • XML如何实现事务处理?

    xml在分布式事务中的核心角色是作为“信使”和“蓝图绘制者”,即通过其跨平台、自描述的特性,承载事务上下文、定义事务边界,并在异构系统间标准化传递事务元数据。它并不执行实际的事务操作(如提交或回滚),而是通过ws-atomictransaction等基于xml的协议,封装事务id、状态及协调指令,确…

    2025年12月17日
    000
  • XML怎样定义扩展属性?

    xml定义扩展数据的方式主要有两种:1.使用属性,适用于简单元数据或单值信息;2.使用子元素,适合复杂、结构化或多值数据。命名空间用于避免名称冲突,确保扩展与标准共存。xsd通过定义属性类型、出现次数等规则验证扩展数据的规范性。 XML本身并没有一个叫做“扩展属性”的特殊概念,它定义扩展数据的方式,…

    2025年12月17日
    000
  • RSS如何设置更新通知?

    要实现rss更新通知,需借助外部工具或服务。①使用rss阅读器:如reeder、netnewswire(桌面端),feedly、inoreader(移动端),它们支持系统或应用内通知;②利用自动化平台:如ifttt或zapier,设置触发器和动作,将更新推送至邮件、手机或聊天软件;③网站邮件订阅:部…

    2025年12月17日
    000
  • RSS如何实现灰度发布?

    rss不能直接实现软件层面的灰度发布,但可通过内容分发特性模拟“内容灰度”。具体操作包括:①创建多版本内容流,如稳定版与实验版rss源;②通过用户分组绑定不同订阅源,定向推送差异化内容;③监测用户行为数据,评估效果并逐步扩大范围。此外,rss还可作为灰度发布过程中的信息广播工具,用于内部状态通知、团…

    2025年12月17日
    000
  • RSS如何添加分类标签?

    要给rss添加分类标签,核心是使用rss 2.0规范中的元素为每个条目指定一个或多个分类。1. 标签嵌套在中,可重复出现并支持domain属性以定义分类体系;2. 在cms平台如wordpress中,分类会自动映射到rss feed中;3. 自建系统需在数据模型中设计分类字段,并在生成xml时动态插…

    2025年12月17日
    000
  • RSS如何实现暗黑模式?

    rss阅读器支持暗黑模式主要依赖于内容消费端的处理能力,具体实现方式包括:1.使用内置暗黑模式的主流阅读器(如feedly、reeder等),它们通过解析rss数据并应用预设css样式来统一渲染内容;2.浏览器端可通过实验性功能或扩展(如dark reader)注入css或操作dom实现反色效果;3…

    2025年12月17日
    000
  • XML如何定义正则约束?

    xsd通过元素支持正则表达式,但功能受限。1. 允许定义简单正则表达式以验证元素或属性值格式,如限制为字母数字组合或电子邮件地址;2. 其限制包括:不支持pcre高级特性(如后向引用)、无法实现动态逻辑组合、复杂表达式影响可读性与性能、缺乏自定义错误消息机制;3. 实际应用中可选用schematro…

    2025年12月17日
    500
  • XML如何定义枚举类型值?

    xml本身不直接支持枚举类型,但可通过三种方法模拟:1.使用xsd定义枚举并强制验证;2.通过dtd实现简单枚举但功能受限;3.在应用程序代码中手动检查枚举值。其中xsd是最推荐的方式,它利用和结合来限定允许的值,确保xml文档结构和数据的正确性。dtd虽能用|符号定义可选值,但仅支持字符串、无详细…

    2025年12月17日
    000

发表回复

登录后才能评论
关注微信