ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3d 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。

然而,尽管生成动作的自然程度已经有所提升,但与使用需求仍存在较大差距。为了进一步提升人体动作生成算法的能力,本文在MotionDiffuse [1]的基础上提出了ReMoDiffuse算法(图1)。通过利用检索策略,找到高相关性的参考样本,并提供细粒度的参考特征,从而生成更高质量的动作序列

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

论文链接:https://arxiv.org/pdf/2304.01116.pdf

GitHub链接:https://github.com/mingyuan-zhang/ReMoDiffuse

项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 1. ReMoDiffuse 概览

方法介绍

ReMoDiffuse的主要流程分为两个阶段:检索和扩散。在检索阶段,ReMoDiffuse利用混合检索技术,根据用户输入文本和预期的动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供有力的指导。在扩散阶段,ReMoDiffuse利用检索阶段获取的信息,通过高效的模型结构生成与用户输入语义一致的运动序列

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):

共有三种数据参与检索过程,分别是用户输入文本、预期动作序列长度,以及一个外部的、包含多个 对的多模态数据库。在检索最相关的样本时,ReMoDiffuse 利用公式ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了计算出每个数据库中的样本与用户输入的相似度。这里的第一项是利用预训练的 CLIP [2] 模型的文本编码器对用户输入文本和数据库实体的文本计算余弦相似度,第二项计算预期动作序列长度和数据库实体的动作序列长度之间的相对差异作为运动学相似度。计算相似度分数后,ReMoDiffuse 选择相似度排名前 k 的样本作为检索到的样本,并提取出文本特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了,和动作特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了。这两者和从用户输入的文本中提取的特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 一同作为输入给扩散阶段的信号,指导动作生成。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 2:ReMoDiffuse 的检索阶段

扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse会逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程则专注于去除噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse在逆向过程的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号逐步去除噪声。这里的SMT中的SMA模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 3:ReMoDiffuse 的扩散阶段

对于 SMA 层(图 3.b),我们使用了高效的注意力机制(Efficient Attention)[3] 来加速注意力模块的计算,并创造了一个更强调全局信息的全局特征图。该特征图为动作序列提供了更综合的语义线索,从而提升了模型的性能。SMA 层的核心目标是通过聚合条件信息来优化动作序列ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的生成。在这个框架下:

1.Q 向量具体地代表了我们期望基于条件信息生成的预期动作序列图片

2.K 向量作为一种索引机制综合考虑了多个要素,包括当前动作序列特征图片、用户输入的语义特征图片,以及从检索样本中获取的特征图片图片。其中,图片表示从检索样本中获取的动作序列特征,图片表示从检索样本中获取的文本描述特征。这种综合性的构建方式保证了 K 向量在索引过程中的有效性。

AI新媒体文章 AI新媒体文章

专为新媒体人打造的AI写作工具,提供“选题创作”、“文章重写”、“爆款标题”等功能

AI新媒体文章 75 查看详情 AI新媒体文章

3.V 向量提供了生成动作所需的实际特征。与 K 向量类似,V 向量综合考虑了检索样本、用户输入和当前动作序列。由于检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时,我们选择不使用这一特征,以避免不必要的信息干扰

结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。

为了实现内容的重写,需要将原文转换成中文。以下是重写后的内容:研究设计和实验结果

我们对ReMoDiffuse进行了HumanML3D [4]和KIT-ML [5]两个数据集的评估。实验结果(表1、2)从文本一致性和动作质量两个角度展示了我们提出的ReMoDiffuse框架的强大性能和优势

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表 1. 不同方法在 HumanML3D 测试集上的表现

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表 2. 不同方法在 KIT-ML 测试集上的表现

以下是展示 ReMoDiffuse 强大性能的一些示例(图 4)。与之前的方法相比,例如,在给定文本“一个人在圆圈里跳跃”时,只有 ReMoDiffuse 能够准确捕捉到“跳跃”动作和“圆圈”路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较

我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 5:用户调研的结果分布

引用

明源张、蔡忠刚、潘亮、洪方舟、郭欣颖、杨磊和刘子伟。Motiondiffuse: 基于扩散模型的文本驱动人体动作生成。arXiv预印本 arXiv:2208.15001, 2022年

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

需要重写的内容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。《运动语言数据集》。大数据,4(4):236-252,2016年

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

以上就是ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/490078.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 15:16:59
下一篇 2025年11月8日 15:22:05

相关推荐

  • 从初学到专业:掌握这五种前端CSS框架

    CSS是网站设计中重要的一部分,它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用,通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架,从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发,具有可定制的响应式网格系统、…

    2025年12月24日
    200
  • 初学者如何快速入门CSS3技术

    初学者如何快速入门CSS3技术 CSS3是一种用于网页设计的样式表语言,它为开发者提供了丰富的样式特性和效果。对于初学者来说,学习CSS3技术可能会感觉困难和复杂,但只要掌握了基本的概念和语法,就能快速入门并开始使用CSS3来设计出令人印象深刻的网页。 本文将以简单明了的方式介绍CSS3的一些基本概…

    2025年12月24日
    000
  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    000
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • 学习并掌握常见的canvas框架:绘图和动画制作的入门指南

    入门canvas框架:学习使用常见的canvas框架进行绘图和动画制作,需要具体代码示例 随着前端技术的快速发展,网页设计中的动态效果日益重要。而canvas作为一种用于在浏览器上绘制图形的HTML元素,已经成为了实现各种动画效果和游戏开发的重要工具。为了更加高效地使用canvas,许多优秀的can…

    2025年12月21日
    000
  • 从零开始学习canvas:掌握基础知识的方法指南

    零基础入门canvas:从头开始学习canvas方法的基本知识,需要具体代码示例 当我们谈到在网页上绘制图形和动画时,HTML5中的canvas元素无疑是一个非常有用的工具。虽然对于初学者来说,canvas可能会有些令人生畏,但只要有一个良好的基础知识并且跟着我们一步一步地学习,你会发现其实并不难。…

    2025年12月21日
    000
  • JavaScript快速入门:获取HTTP状态码

    快速入门:使用JavaScript获取HTTP状态码,需要具体代码示例 引言:在开发Web应用程序时,我们经常需要与服务器进行交互并获取HTTP状态码。HTTP状态码是服务器响应请求时返回的一个三位数字,它们提供了对请求状态的基本诊断和信息。在本文中,我们将学习如何使用JavaScript获取HTT…

    2025年12月21日
    000
  • html如何修改日期样式

    在html中,可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式,只需要用该选择器选中元素,在设置具体样式即可,具体语法为“::-webkit-datetime-edit{属性:属性值}”。 本教程操作环境:windows7系统、CSS3&&HTML…

    2025年12月21日
    100
  • 单选框的type属性值为什么

    单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型;值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在HTML中,…

    2025年12月21日
    000
  • HTML中type是什么意思

    在HTML中,type是类型的意思,是一个标签属性,主要用于定义标签元素的类型或文档(脚本)的MIME类型;例在input标签中type属性可以规定input元素的类型,在script标签中type属性可以规定脚本的MIME类型。 本教程操作环境:windows7系统、html5版、Dell G3电…

    2025年12月21日
    000
  • HTML中ul标签如何去掉点?HTML无序列表的样式实例解析

    本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉,还有关于html的无序列表ul标签的样式解释,给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧 首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的: 大家应该都使用过ul无序列表标签,ul…

    2025年12月21日 好文分享
    000
  • html中的ol标签如何去掉标号呢?标签的使用方法总结

    本篇文章介绍了html的ol标签是怎么去掉序号标号的,这里还有代码的详细解释,还有介绍了关于html ol有序列表标签如何更改序号,下文介绍了三种序号,大家也可以自己去想填写怎样的序号。现在来看这篇文章吧 一、我们先看看html中的ol标签是如何去掉标号的呢: 我们都知道html的ol标签是个有序列…

    2025年12月21日 好文分享
    000
  • HTML ul标签的什么意思?HTML ul标签的作用详解

    本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法,还有关于html ul标签的解释,包含li标签的还有type属性对ul标签的使用情况,好了,下面大家一起来看文章吧 首先让我们先来解释一下HTML ul标签的意思: ul标签定义的是表格当中无序列表,表格当中的无序列表都是在 标签之中…

    2025年12月21日
    000
  • HTML入门基础

    本篇文章主要介绍HTML入门基础,感兴趣的朋友参考下,希望对大家有所帮助。 标记、标签、元素 标签和元素通常是描述同样的意思,但是严格来说,一个html元素包含了开始标签和结束标签。 一个标准的HTML页面 <!–可以插入脚本,样式文件(css)以及各种meta信息页面标题 <!–可…

    2025年12月21日 好文分享
    000
  • 麦子学院bootstrap入门视频资料分享

    bootstrap是由twitter发布一款目前最受欢迎的前端框架。bootstrap基于 html、css、javascript的,它简洁灵活,将常见的css布局、常用组件和javascript插件进行了完整并完善的封装,能让没有经验的前端工程师和后端开发工程师都迅速掌握和使用,大大提高开发效率,…

    2025年12月21日
    000
  • 麦子学院bootstrap入门视频的资料(课件源码)推荐

    bootstrap是由twitter发布一款目前最受欢迎的前端框架。bootstrap基于 html、css、javascript的,它简洁灵活,将常见的css布局、常用组件和javascript插件进行了完整并完善的封装,能让没有经验的前端工程师和后端开发工程师都迅速掌握和使用,大大提高开发效率,…

    2025年12月21日
    000
  • javascript框架和库是什么_如何选择React、Vue或Angular?

    JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构;React是UI组件库,生态灵活但需自行整合工具;Vue渐进式易上手,兼顾原型与工程化;Angular是全功能TypeScript框架,适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合,用来简化前端开发——…

    2025年12月21日
    000
  • React应用生产环境环境变量配置深度指南

    本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题,深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码,指导开发者正确配置和使用环境变量,解决api调用层面的`null`响应问题,确保应用在生产环境下的稳定运行。 在React应用开发中,环境变量(如API密钥…

    2025年12月21日
    000
  • JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

    JSDoc是一种JavaScript结构化注释规范,通过@param、@returns等标签描述代码元素,并借助工具生成HTML文档,结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解(Annotation)像Java那样的语法,但通过约定的注释格式和配套工具,可…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信