数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

打开一个数字人,里面全是生成式 ai

9月23日晚上,杭州亚运会的开幕式上,点燃主火炬的环节展现了上亿线上数字火炬手的「小火苗」聚集在钱塘江上,形成了一个数字人形象。接着,数字人火炬手和现场的第六棒火炬手一同走到火炬台前,共同点燃了主火炬

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

作为开幕式的核心创意,数实互联的火炬点燃形式冲上了热搜,引发了人们的重点关注。重写后的内容:作为开幕式的核心创意,数实互联的火炬点燃方式引起了热议,吸引了人们的关注

数字人点火是一个前所未有的创举,上亿人参与其中,涉及了大量先进且复杂的技术。其中最重要的问题之一是如何让数字人「动起来」。可以明显看出,随着生成式人工智能和大型模型的快速发展,数字人研究也出现了更多新的变化

在 10 月初即将举行的全球计算机视觉顶会 ICCV 2023 上,我们关注到一篇生成 3D 数字人运动研究被大会收录。相关论文题为《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大学、蚂蚁集团联合发布。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

根据介绍,这项研究在一定程度上解决了数字人远距离合成复杂运动的问题,能够实现原有模型或路径规划无法实现的效果。数字人驱动相关的技术还被应用于亚运会的1亿数字人线上传递

生成式 AI 驱动,让数字人动起来

很多时候,我们需要在给定的 3D 场景中合成 3D 人体运动,使虚拟人能够自然地在场景中漫步并与物体交互,这种效果在 AR/VR、电影制作和视频游戏中都存在多种应用。

在这里,传统的角色控制运动生成方法旨在由用户的控制信号引导生成短期或重复的运动,新研究则专注于在给定起始位置和目标对象模型的情况下生成更加长时间的人机交互内容。

这种思路虽然效果更好,但显然挑战更大。首先,人与物体的交互应该是连贯的,这需要对人与物体之间的远程交互进行建模的能力。其次,在内容生成的背景下,生成模型应该能够合成大小不同的运动,因为真人存在多种接近目标对象并与之交互的方式。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技
图 1. 人与物体交互形象的生成。给定一个对象,新方法首先预测一组里程碑(milestone)事件,其中环表示位置,粉红色衣服的人代表原姿势。算法在里程碑之间填充动作。该图显示新方法使用同一对象生成不同的里程碑和动作。时间的流动用颜色代码显示,越深的蓝色表示越往后的帧。 

在生成数字人动作的方法上,现有的合成方法大致可分为在线生成和离线生成。大多数在线方法侧重于角色的实时控制。给定一个目标对象,他们通常使用自回归模型通过反馈预测来循环生成未来的运动。尽管这种方法已广泛用于视频游戏等交互场景,但其质量对于长期生成来说还难以令人满意。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

为了提高运动质量,近期的一些离线方法开始采用多级框架,首先生成轨迹,然后合成运动。尽管这种策略能够产生合理的路径,但路径的多样性却是有限的

在这项新研究中,作者提出了一种全新的离线方法,用于综合长期且多样化的人与物体之间的交互。该方法的创新之处在于采用了分层生成策略。首先,该策略会预测一系列的里程碑,然后再生成这些里程碑之间的人体动作

具体来说,给定起始位置和目标对象,作者设计了一个里程碑生成模块来合成沿着运动轨迹的一组节点,每个里程碑对局部姿势进行编码并指示人体运动过程中的过渡点。基于这些里程碑,算法采用运动生成模块来生成完整的运动序列。由于这些里程碑的存在,我们可以将长序列的生成简化为合成几个短运动序列。

每个里程碑的局部姿态是由考虑全局依赖性的 transformer 模型生成的,以产生时间一致的结果,从而进一步促进相干运动

除了分层生成框架之外,研究人员还进一步利用扩散模型来合成人与物体的交互。此前的一些运动合成扩散模型结合了 transformer 和去噪扩散概率模型(DDPM)。

值得一提的是,由于运动序列较长,直接将它们应用到新设置中需要大量的计算,可能导致 GPU 内存爆炸。由于新的分层生成框架将长期生成转换为多个短序列的合成,因此所需的 GPU 内存减少到了与短期运动生成相同的水平。

因此,研究人员可以有效地使用Transformer DDPM来合成长期运动序列,从而提高生成质量

为了达到这个目的,研究人员设计了一个分层生成框架,如下图所示

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

首先,他们使用GoalNet来预测对象上的交互目标,然后生成目标姿态来显式建模人与物体的交互。接下来,他们使用里程碑生成模块来估计里程碑的长度,从而生成从起点到目标的里程碑轨迹,并放置里程碑姿态

这样一来,长距离运动生成就被分解为多个短距离运动生成的组合。最后,作者设计了一个运动生成模块,用于合成里程碑之间的轨迹并填充动作。

人工智能(AI)的姿态生成

研究者将人与物体互动并保持静止的姿态称为目标姿态。之前,大多数方法使用 cVAE 模型生成人体姿态,但研究者发现该方法在自己的研究中表现不佳。

为了应对这个挑战,他们采用了VQ-VAE模型来对数据分布进行建模。该模型利用离散表示将数据聚类在有限的点集中。此外,根据观察,不同的人体姿态可能具有相似的属性。例如,当人坐下时,手的动作可能不同,但腿部位置可能相同。因此,他们将关节分为L(L = 5)个不同的非重叠组

根据图3所示,目标姿态被划分为独立的关节组

怪兽AI数字人 怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

怪兽AI数字人 44 查看详情 怪兽AI数字人

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

根据起始姿态和目标姿态,我们可以让算法生成里程碑轨迹,并合成里程碑处的局部姿势。由于运动数据的长度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能绕着椅子慢慢走一圈后坐下),因此需要预测里程碑的长度,用 N 表示。然后,合成 N 个里程碑点,并在这些点上放置局部姿态。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

最后是动作生成,研究者用到的方法不是逐帧预测动作,而是根据生成的里程碑分层合成整个序列。他们首先生成轨迹,然后合成动作。具体来说,在两个连续的里程碑内,他们首先完成轨迹。然后,在连续里程碑姿态的引导下填充运动。这两个步骤分别使用两个 Transformer DDPM 完成。

研究者会为每个步骤精心设计DDPM的条件,以生成目标输出

重写的内容是:领先于其他产品的效果

研究人员在 SAMP 数据集上比较了不同方法的结果。可以看到,论文所提方法具有更低的 FD、更高的用户研究得分和更高的 APD。此外,他们的方法实现了比 SAMP 更高的轨迹多样性。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

这种新方法可以在复杂的场景中产生令人满意的结果。该方法生成的穿透帧的百分比为3.8%,SAMP为4.9%

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

在SAMP、COUCH等数据集上,研究中提到的方法都取得了比基准方法更好的结果

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

完成全链路布局

数字人是将语音、语义、视觉等多模态技术融合在一起的综合体。在最近生成式 AI 取得突破的同时,数字人领域正在经历跨越式的发展,以前需要手工制作的建模、生成交互、渲染等环节正在全面实现人工智能化

随着工程师不断优化,这项技术在移动端的体验也在变得更好,刚刚结束的亚运火炬线上传递活动就是个很好的例子:想要成为火炬手,我们只需要点开支付宝 App 的小程序。

据说,为确保开幕式项目顺畅进行,蚂蚁集团的工程师们针对上百款不同型号的手机进行了超过 10 万次测试,敲下了 20 多万行代码,并通过自研 Web3D 互动引擎 Galacean、AI 数字人、云服务、区块链等多种技术结合,保证了人人都可以成为数字火炬手,参与火炬传递。亚运数字火炬手平台,能做到亿级用户规模覆盖,并支持 97% 的常见智能手机设备。

为了让数字火炬手们能够真实地参与,蚂蚁的技术团队开发了58个捏脸控制器。通过使用人脸识别和AI算法,他们可以根据每个人的面部特征绘制数字火炬手的脸部形象。同时,用户还可以自由调整脸型、发型、鼻子、嘴巴、眉毛等特征,实现自由换装。这项技术可以提供2万亿种不同的数字形象选择

另外,开幕式点火仪式后,每位数字火炬手都可以收到一张数字点火专属证书,绘有每位数字火炬手独一无二的形象,这张证书会通过分布式技术存储在区块链上。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

从研究论文内容和亚运项目不难看出,背后都有完整数字人技术体系的支撑。据了解,蚂蚁集团正积极开展数字人技术探索,并已完成数字人的全链路核心技术自研布局。

与市面上多数公司不同,蚂蚁集团的数字人技术自研,选择与生成式 AI 结合的发展方向。从技术部署上,则涵盖数字人建模、渲染、驱动、交互的全生命周期,结合 AIGC 与大模型,大幅降低了数字人全链路生产成本。目前可支持 2D、3D 数字人,提供了播报型、交互型等多种解决方案。

数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技

根据公开资料,可以总结蚂蚁数字人平台目前具备四方面技术优势和特色:

低成本建模:与清华大学合作推出亚洲人脸 3D 参数化模型,基于照片重建 3D 人脸,更符合亚洲人脸型特点。
生成式驱动:驱动生成和动作捕捉结合,对比传统动作制作流程有效降低成本和提升动作丰富度。
高适配渲染:自研 Web3D 渲染引擎 Galacean,覆盖 97% 常见手机终端;在神经渲染方面搭建了动态驱动和静态建模解耦的 NeRF 框架,应用于数字人动态视频场景。
智能化交互:基于预训练的音色克隆,支持分钟级音频输入生成个性化数字人音色;并布局基于大模型的数字人交互。

亚运会开幕式之前,中国信通院发布最新数字人标准符合性验证结果,蚂蚁集团灵境数字人平台,成为业界首个通过金融数字人评测的产品,获得了最高评级「杰出级 (L4)」。

而在亚运之外,蚂蚁数字人平台还支持了蚂蚁集团支付宝、数字金融、政务、五福等业务,并在今年开始应用于短视频、直播、小程序等载体向合作伙伴提供基础服务。

可以预见在不久之后,伴随生成式 AI 加持的数字人不断升级,我们也会在更多场景中体验到更好的交互,真正进入数实融合的智能生活。

以上就是数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/488653.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 14:40:37
下一篇 2025年11月8日 14:46:30

相关推荐

  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    000
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • html如何修改日期样式

    在html中,可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式,只需要用该选择器选中元素,在设置具体样式即可,具体语法为“::-webkit-datetime-edit{属性:属性值}”。 本教程操作环境:windows7系统、CSS3&&HTML…

    2025年12月21日
    100
  • 单选框的type属性值为什么

    单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型;值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在HTML中,…

    2025年12月21日
    000
  • HTML中type是什么意思

    在HTML中,type是类型的意思,是一个标签属性,主要用于定义标签元素的类型或文档(脚本)的MIME类型;例在input标签中type属性可以规定input元素的类型,在script标签中type属性可以规定脚本的MIME类型。 本教程操作环境:windows7系统、html5版、Dell G3电…

    2025年12月21日
    000
  • HTML中ul标签如何去掉点?HTML无序列表的样式实例解析

    本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉,还有关于html的无序列表ul标签的样式解释,给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧 首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的: 大家应该都使用过ul无序列表标签,ul…

    2025年12月21日 好文分享
    000
  • html中的ol标签如何去掉标号呢?标签的使用方法总结

    本篇文章介绍了html的ol标签是怎么去掉序号标号的,这里还有代码的详细解释,还有介绍了关于html ol有序列表标签如何更改序号,下文介绍了三种序号,大家也可以自己去想填写怎样的序号。现在来看这篇文章吧 一、我们先看看html中的ol标签是如何去掉标号的呢: 我们都知道html的ol标签是个有序列…

    2025年12月21日 好文分享
    000
  • HTML ul标签的什么意思?HTML ul标签的作用详解

    本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法,还有关于html ul标签的解释,包含li标签的还有type属性对ul标签的使用情况,好了,下面大家一起来看文章吧 首先让我们先来解释一下HTML ul标签的意思: ul标签定义的是表格当中无序列表,表格当中的无序列表都是在 标签之中…

    2025年12月21日
    000
  • javascript框架和库是什么_如何选择React、Vue或Angular?

    JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构;React是UI组件库,生态灵活但需自行整合工具;Vue渐进式易上手,兼顾原型与工程化;Angular是全功能TypeScript框架,适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合,用来简化前端开发——…

    2025年12月21日
    000
  • React应用生产环境环境变量配置深度指南

    本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题,深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码,指导开发者正确配置和使用环境变量,解决api调用层面的`null`响应问题,确保应用在生产环境下的稳定运行。 在React应用开发中,环境变量(如API密钥…

    2025年12月21日
    000
  • JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

    JSDoc是一种JavaScript结构化注释规范,通过@param、@returns等标签描述代码元素,并借助工具生成HTML文档,结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解(Annotation)像Java那样的语法,但通过约定的注释格式和配套工具,可…

    2025年12月21日
    000
  • JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

    在JavaScript中可通过JSDoc使用联合类型注解,如string|number表示多类型支持,结合@param、@typedef等标签提升代码可读性与编辑器提示,适用于函数参数、返回值等场景。 在JavaScript中,虽然原生不支持类型注解,但在使用JSDoc配合现代编辑器(如VS Cod…

    2025年12月21日
    000
  • VS Code主题开发:告别JSON,拥抱脚本化生成

    vs code主题扩展最终需json格式定义,但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题,并能实现颜色动态计算,显著提升主题开发的灵活性与效率。 为什么选择脚本化生成VS Code主题? 在开发V…

    2025年12月20日
    000
  • 如何用Quasar框架开发一个跨平台应用?

    Quasar基于Vue.js用一套代码构建多平台应用,支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目,利用模式(SPA、PWA、Electron等)切换目标平台,使用Quasar组件库编写通用UI,配合Pinia管理状态,最后通过不同构建命令发布到各平台,实现高…

    2025年12月20日
    000
  • 怎么利用JavaScript进行前端代码覆盖率统计?

    答案:利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩,结合测试框架收集执行数据并生成报告。具体流程包括:在代码执行前通过Babel或Webpack插件(如babel-plugin-istanbul)插入计数器实现插桩;运行测试时记录哪些代码被执行;…

    2025年12月20日
    100
  • typescript中的参数分享

    TypeScript 中的参数共享允许组件间共享参数,实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数,使用 @Output 装饰器定义子组件事件,以便在子组件状态改变时通知父组件。参数共享提高复用性,简化状态管理,允许子组件向父组件发出通知,但应谨慎使用,避免大量数据共享…

    2025年12月19日
    000
  • 手机如何运行typescript方法

    要在手机上运行 TypeScript 方法,可以使用 TypeScript 编译器或第三方库:TypeScript 编译器: 将 TypeScript 代码编译成 JavaScript,然后集成到移动应用程序中。第三方库: 如 React Native 或 NativeScript,允许使用 Typ…

    2025年12月19日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2025年12月19日
    000
  • TypeScript基本用法和语法

    TypeScript 是一种具有类型系统的 JavaScript 超集,提供以下特性:类型注解:确保变量、函数和类的类型一致。接口:定义方法和属性,供类实现。枚举:提供命名常量集。泛型:创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信