阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！

程序猿 • 2025年11月11日 10:03:24 • 用户投稿 • 阅读 1

阿里巴巴又一篇名为“舞蹈整活儿”的论文在AnimateAnyone之后引起了轰动

现在，只要上传一张脸部照片并简单描述一句话，就可以在任何地方跳舞啦！

例如下面这段《擦玻璃》的舞蹈视频：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

您需要做的就是上传一张人像照片，以及填写相应的提示信息

在秋天的金色树叶中，一个女孩穿着浅蓝色的连衣裙微笑着跳舞

随着提示的变化，人物的背景和衣服也会相应地改变。比如，我们可以再换几句话：

一个女孩在木屋里微笑着跳舞，她身穿着毛衣和长裤

一个女孩，微笑着，在时代广场跳舞，穿着连衣裙般的白衬衫，长袖，长裤。

图片

这便是阿里最新的一项研究——DreaMoving，主打的就是让任何人、随时且随地地跳舞。

图片

而且不仅是真人，就连卡通动漫人物也都是可以hold住的哦~

图片

项目一出，也是引发了不少网友的关注，有人在看过效果之后直呼“Unbelievable”~

图片

那么这个结果是如何实现的呢？这项研究是如何进行的呢？

背后原理

虽然像稳定视频传播（Stable Video Diffusion）和Gen2等文本到视频（text-to-video，T2V）模型的问世，已经在视频生成领域取得了重大突破，但目前仍面临着许多挑战

例如，在数据集方面，目前缺乏开源的人类舞蹈视频数据集以及难以获得相应的精确文本描述，这就使得让模型们去生成多样性、帧一致性、时长更长的视频成为挑战

并且在以人为中心的内容生成领域，生成结果的个性化和可控性也是关键因素。

图片

为了应对这两个挑战，阿里团队首先开始处理数据集

研究者们首先从互联网收集了约1000个优质的人类舞蹈视频。然后，他们将这些视频切割成约6000个短视频（每个视频8至10秒），以确保视频片段中没有转场和特效，有利于时间模型的训练

此外，为了生成视频的文本描述，他们使用了Minigpt-v2作为视频字幕器（video captioner），特别采用了“grounding”版本，指令是详细描述这个帧。

通过基于关键帧中心帧生成的字幕，可以准确地描述视频片段的主题和背景内容

在框架方面，阿里团队则是提出了一个名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三个神经网络来构成，包括去噪U-Net（Denoising U-Net）、视频控制网络（Video ControlNet）和内容引导器（Content Guider）。

图片

其中，Video ControlNet是在每个U-Net块之后注入Motion Block的图像控制网络，将控制序列（姿态或深度）处理为额外的时间残差

Denoising U-Net是一种衍生的Stable-Diffusion U-Net，带有用于视频生成的运动块。

而Content Guider则是将输入文本提示和外观表情（如人脸）传输到内容嵌入中。

通过这样的操作，DreaMoving能够在输入给定的引导序列和简单的内容描述（例如文本和参考图像）的情况下生成高质量、高保真度的视频

图片

不过很可惜的一点是，目前DreaMoving项目并没有开源代码。

对于对此感兴趣的伙伴，可以先关注一下，等待代码开源的发布~

请参考以下链接：[1]https://dreamoving.github.io/dreamoving/[2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

以上就是阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/628341.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

u盘如何装系统

上一篇 2025年11月11日 10:03:21

番茄小说如何查看影视小说热门标签

下一篇 2025年11月11日 10:03:27

好文分享

项目如何使用localstorage包？

如何在项目中引入Local Storage包？ Local Storage是一种Web浏览器中的本地存储机制，允许网页在用户的浏览器中存储和检索数据。它提供了一种简单且易于使用的方法，在项目开发中存储和读取数据。在本文中，我们将介绍如何在项目中引入Local Storage包，并提供具体的代码示例。…

程序猿
2025年12月21日
1000
好文分享

使用 C++ 框架构建大型项目的关键考量和最佳实践

构建大型 c++++ 项目时，使用框架至关重要。关键考量因素包括选择合适的框架、模块化设计、代码复用和依赖管理。最佳实践包括遵守框架约定、使用框架工具、创建扩展点、文档化代码和实施持续集成与交付。遵循这些指导原则可创建坚实的基础，并交付满足用户需求的可靠且可维护的软件。使用 C++ 框架构建大型项…

程序猿
2025年12月18日
0000
visual c++6.0怎么新建C语言项目

1、首先在工作区中，切换到”fileview”(文件视图)下 2、点击【文件】，选择【新建】 3、选择”c++ source File”创建源文件，然后勾选”添加到工程”，并命名文件名，点击”确定” 立即学习“C语言免费学习笔记（深入）”； 4、同理，点击”文件”，新建，在弹出的窗口中，选择”C/C…

程序猿
2025年12月17日 • 好文分享
2000
用户投稿

快速掌握PyCharm项目打包的基础知识

从零开始，快速上手PyCharm项目打包技巧概述：在Python开发中，将项目打包成可执行文件是非常重要的一步。它可以方便地分享和分发项目，而无需安装Python解释器和依赖包。PyCharm作为一个功能强大的Python集成开发环境，提供了快速上手项目打包的技巧和工具。本文将介绍如何利用PyCh…

程序猿
2025年12月13日
0000
用户投稿

分享PyCharm项目打包的简易方法

简单易懂的PyCharm项目打包方法分享随着Python的流行，越来越多的开发者使用PyCharm作为Python开发的主要工具。PyCharm是功能强大的集成开发环境，它提供了许多方便的功能来帮助我们提高开发效率。其中一个重要的功能就是项目的打包。本文将介绍如何在PyCharm中简单易懂地打包项…

程序猿
2025年12月13日
0000
用户投稿

pycharm怎么创建项目

创建项目步骤：1、打开PyCharm；2、在欢迎界面，点击“Create New Project”按钮，或者在菜单栏中选择“File” > “New Project”；3、在弹出的对话框中，选择您的项目类型，然后点击“Next”；4、选择项目的位置和名称，完成设置后，点击“Create”来创建…

程序猿
2025年12月13日
0000
用户投稿

在Python字典中给定一个键后添加一个项目

Python 字典是功能强大的数据结构，可让您有效地存储和检索键值对。它们提供了一种灵活的方式来组织和操作数据，使它们成为 Python 编程的基本工具。虽然字典在最新版本的 Python 中进行了改进，例如从 Python 3.7 开始保持项目的顺序，但它们仍然缺乏在特定键后插入项目的内置方法。 …

程序猿
2025年12月13日
0000
用户投稿

除了追热点，如何发现那些被低估的“价值洼地”项目？

1、分析项目基本面需查阅白皮书、检查代码活跃度及团队背景；2、评估代币经济模型关注供应量、用途与持仓集中度；3、监测链上数据观察交易量、大额转账与持币分布；4、考察社区活跃度与生态发展，判断用户粘性与外部应用拓展。在币圈投资中，除了追逐热点，发现被低估的“价值洼地”项目需要系统性的分析方法。为了…

程序猿
2025年12月11日
0000
StableDiffusion怎样用LoRA定制画风_StableDiffusion用LoRA定制画风【画风定制】

通过加载LoRA模型可精准控制Stable Diffusion的生成画风，需将.safetensors文件放入models/loras/目录并重启WebUI；2. 在提示词中使用调用，结合正向提示词描述风格、反向提示词排除干扰，并调整权重值（0.5~1.0）优化效果；3. 可引入Textual In…

程序猿
2025年12月2日 • 用户投稿
3000
MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。随着近两年来扩散模型的快速发展，图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型，已经对设计、游戏等领域产生了巨大的影响然而，如何根据给定的文本或其他条件，产生…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

本周，国际计算机视觉大会 ICCV（International Conference on Computer Vision）在法国巴黎开幕。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作为全球计算机视觉领域顶级的学术会议，ICCV 每两…

程序猿
2025年12月2日 • 用户投稿
0000
哩布哩布ai安全访问官网地址_哩布哩布ai平台链接官方首页

哩布哩布AI安全访问官网地址是https://www.liblib.art/，该平台提供丰富的AI模型资源、在线图像生成功能及个性化LoRA训练服务，支持多种模型类型筛选与云端作品管理。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 哩布哩…

程序猿
2025年12月2日 • 用户投稿
0000
哩布哩布AI怎么加速生成速度_哩布哩布AI排队优化与GPU设置技巧

优先切换高优先级队列并选择空闲GPU节点，调整分辨率至768×768、采样步数20-30，关闭多余插件，利用早晚低峰时段生成以提升效率。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您在使用哩布哩布AI生成图像时遇到排队时间…

程序猿
2025年12月2日 • 用户投稿
0000
即梦AI怎么控制人物姿势即梦AI精准控制角色动作方法【攻略】

使用明确提示词、骨骼映射、预设模板、ControlNet插件及草图功能可精准控制即梦AI角色姿态。1、输入具体动作与身体部位描述，提升识别精度；2、开启姿态控制并上传参考图提取骨架，调整关键点与强度；3、选用“舞蹈”“战斗”等分类下的预设模板编号快速调用标准动作；4、安装ControlNet插件，加…

程序猿
2025年12月2日 • 用户投稿
1000
ChatGPT怎样用图像生成配合文案_ChatGPT用图像生成配合文案【图文创作】

先明确优化提示词结构可提升图文匹配度，再分步生成并校对一致性，最后联动外部工具精细调整，确保图像与文案在场景、情感和细节上精准契合。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您在使用ChatGPT进行图文创作时发现生成的图像与文案…

程序猿
2025年12月2日 • 用户投稿
1000
有手就行！PS全新工具实现“对话式P图” AI应用风口已然到来

ai即将淘汰哪个行业？在midjourney、dall-e等一众ai绘图模型的爆火下，传统的设计行业一度陷入了“人人自危”的境地。生产力跃迁革命近乎不可逆，设计软件龙头adobe photoshop（下文简称：ps）选择了“革自己的命”。最近，PS的测试版中发布了最新的生成式AI绘图工具Gener…

程序猿
2025年12月2日 • 用户投稿
0000
生成式AI的花园里英伟达如何做“挖掘工”

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 英伟达的GPU为什么昂贵？作者：江月编辑：陶力卢陶然图源：图虫 “CPU扩张的时代已经过去了”是英伟达创始人兼CEO黄仁勋在5月29日台北国际电脑展上宣布的话。”…

程序猿
2025年12月2日 • 用户投稿
0000
吴恩达新课三连发，手把手教你用ChatGPT API构建应用

吴恩达又给AI社区送福音了。今日，吴恩达在推特上宣布三门新的生成式AI课程上线。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 这三门课包括—— 1. 使用OpenAI的ChatGPT API构建系统：通过这门课，可以超越单个提示，学习构…

程序猿
2025年12月2日 • 用户投稿
0000

发表回复

登录后才能评论

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！

背后原理

关于作者

相关推荐

发表回复