清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色

程序猿 • 2025年11月7日 17:21:49 • 用户投稿 • 阅读 0

苹果最近宣布将于2月2日推出首款虚拟头显设备vision pro，预计这款xr设备将引领下一代终端的快速发展。随着虚拟显示设备的普及，数字交互将从平面走向立体，立体模型和立体动画将成为未来的主流内容形式。多维沉浸式交互在虚实融合的趋势下也将成为潮流。

但从数据规模看，现阶段内容产业的数据积累仍以 2D 图像、平面视频为主，3D 模型、4D 动画等数据基础较为薄弱。其中，4D 动画是在传统 3D 模型的基础上引入时间序列，即随时间变化的 3D 模型，可以呈现出动态立体效果，在游戏动画、电影特效、虚拟现实等领域具有广泛的应用，但也是目前内容生态开发中最困难的环节。

因此，面向即将到来的多维沉浸式体验，构建立体化的数字内容将成为重要的基础性工作。

面向该前沿领域，清华系创业团队生数科技开展了系列研究和产品研发，于近期联合清华大学、同济大学等高校推出全球首个基于「骨骼动画」的 4D 动画生成框架「AnimatableDreamer」，能够直接将 2D 视频素材一键转成动态立体模型（即 4D 动画），支持自动提取骨骼动作、一键转换动画效果并可通过文字输入进行个性化角色生成。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2312.03795.pdf

项目地址：https://animatabledreamer.github.io/

论文标题：AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

大家可以看以下Demo视频。

全新内容生产方式

颠覆立体动画开发流程

过往业界制作立体动画，需要经过 3D 建模、贴图渲染、骨骼绑定、动画制作等复杂流程，需要建模师、动画师等专业人员参与才能完成，效率低、成本高。据统计，单一个静态 3D 模型建模的生产周期就在数小时到几天时间，成本可高达上千美元，再进行动态化处理成本投入将更高。

从官方发布的 demo 视频可以看到，上传一段松鼠的 2D 实景视频，通过输入「A squirrel with red sweater」（穿红色毛衣的松鼠）的文本描述，原本实景的松鼠一键转成动画风格，而且完美保留了动作姿势，同步还可生成 360 度视角下的立体动态模型，通过切换文字描述，可以自定义角色，将松鼠任意切换为狐狸、杰尼龟等不同的卡通形象。

「AnimatableDreamer」可自动提取视频中目标对象（人物、动物等）的骨骼动作，再通过文本描述将该对象转换为任意的带骨骼动画模型。整个过程不受模版限制，支持任意视频长度和任意类型动作，具备高度的时间一致性和多视角一致性，并且导出的动态立体模型，能够在任意 3D 环境中进行渲染。

面向影视动漫等领域的后期制作，通常需要针对动画做更多编辑，「AnimatableDreamer」也支持针对已经完成骨骼绑定的模型进行更换或编辑动画文件，实现更高的自由度。未来相关技术逐渐落地后，游戏开发、影视动画等场景的 3D 建模、动画制作流程，有望变得更加高效。

面向未来

有望形成全新的内容生态

AI角色脑洞生成器

一键打造完整角色设定，轻松创造专属小说漫画游戏角色背景故事

176 查看详情

在实现原理上，研究团队创新性地提出了规范得分蒸馏策略（Canonical Score Distillation，简称 CSD），在随时间变化的相机空间中对不同帧及不同视角的 3D 模型进行渲染及降噪，并统一将梯度回传至不同相机空间共享的规范空间中进行蒸馏，将 4D 生成降维至 3D，即将 4D 生成问题简化为 3D 空间上的生成。

「AnimatableDreamer」能直接从视频中提取关节动作，通过解耦物体的模型与运动，生成的模型具备高度的时间一致性和几何合理性，不受视频长度限制，而且能有效地消除如形状断裂、闪烁和多视角不一致等问题。

在有限视角和大幅度运动的场景中，由于引入了 Diffusion 模型的先验知识，即便输入的视频未覆盖完整物体，「AnimatableDreamer」也能自动补全画面信息，实现较好的生成质量。

可以说，「AnimatableDreamer」的提出直接打通文本到 4D 骨骼动画的生成，建模、贴图、骨骼绑定、动作驱动一气呵成！输入自然语言描述，自动输出立体动画视频，无需专业知识，普通人也能直接上手，轻松定制动画内容。

以「AnimatableDreamer」为基础的工作将大大降低 3D、4D 数字内容的生产难度，将交互体验丰富化，让每个人都能进行创意内容的生成和编辑，将催生出 3D 时代下全新的内容娱乐与内容消费模式。

畅想一下，在未来的虚拟世界中，用户可以快速搭建自定义的数字空间，打造个性化的交互体验。例如：

数字空间下的每个人物形象可以任意个性化的生成，比如给小朋友穿上超人的衣服、万圣节随意切换节日主题服装等；

养宠物的用户可以将自家宠物卡通化，例如将其生成虚拟的米老鼠形象。宠物日常就如卡通片一样，主人跟宠物的日常互动将变得趣味横生；

人与人的互动方式也变得更丰富，随时随地可以来上一场主题派对，实时生成想要的派对环境、人物装扮等等。

作为一家成立不到一年的初创公司，生数科技团队长期致力于图像、3D、视频等多模态大模型领域，在 9 月份发布了 3D 资产创建工具 VoxCraft，在 Discord 正式上线，支持文图引导、分钟级创建 3D 模型、3D 贴图自定义更换等功能，赋能游戏开发、影视动画等场景的 3D 建模流程。此次推出的 4D 骨骼动画生成是生数科技的又一项全新探索工作，未来将在 VoxCraft 的产品中进行集成。

VoxCraft 工具地址：https://voxcraft.ai/

苹果 Vision Pro 的来临不仅仅是硬件设备层面的重要革新，同时也将开启一场内容和体验革命的序幕。4D 动画生成等生成式 AI 的创新能力，除了带来更好的视觉呈现，还将以全新方式打开多维数字体验，为下一代人机交互带来更多可能。

以上就是清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/438205.html

follow 产业

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

mac怎么连接windows共享文件夹_mac连接Windows共享文件夹教程

上一篇 2025年11月7日 17:21:27

NVIDIA显卡驱动安装失败错误代码43的解决办法

下一篇 2025年11月7日 17:21:54

Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

使用Writesonic可有效扩写文章：一、用“Continue Writing”功能生成连贯续写；二、通过“Explain this in detail with examples”指令深化内容；三、以“Provide a counter-argument”引入多视角论述；四、利用FAQ生成器创建…

程序猿
2025年12月2日 • 用户投稿
0000
语言模型有重大缺陷，知识推演竟然是老大难

惊人发现：大模型在知识推演上存在严重缺陷。灵活运用知识是智慧的关键。人脑可以快速处理知识，如快速回答 “《静夜思》中有几个月字”。那么，大模型是否能进行类似操作？已知大模型可以通过思维链（Chain of Thought / CoT），先默写《静夜思》，再根据默写内容回答问题，但这会使生成的文字冗…

程序猿
2025年12月2日 • 用户投稿
3000
ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项

在法国巴黎举行了国际计算机视觉大会ICCV（International Conference on Computer Vision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今…

程序猿
2025年12月2日 • 用户投稿
0000
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展，为机器人研究带来新的里程碑

机器人技术为什么远远落后于自然语言处理（nlp）、视觉和其他人工智能领域？除了其他困难外，数据短缺是主要原因。为了解决这个问题，谷歌 deepmind 联合其他机构推出了开放式 x-embodiment 数据集，并成功训练出了更强大的 rt-x 模型在大模型不断取得突破的 2023，把大模型当做大…

程序猿
2025年12月2日 • 用户投稿
0000
生产式AI驱动的主机自动化测试

译者 | 陈峻审校 | 重楼将传统大型主机应用的代码和数据迁移到现代化技术架构上，被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中，这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力，同时降低成本和提高安全性。这种…

程序猿
2025年12月2日 • 用户投稿
0000
毫末龙年春节智驾数据发布：智驾里程994万公里，小魔驼配送近5000单

2月24日，毫末智行公布了2024年%ign%ignore_a_1%re_a_1%春节数据报告。自2024年2月10日至2月23日，用户开启毫末辅助驾驶的行驶总里程突破994万公里，同比2023年春节激增283.4%。在末端物流自动配送领域，小魔驼配送订单比2023年春节同比增长9.2%。截止202…

程序猿
2025年12月2日 • 用户投稿
2000
「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

在普渡大学数字孪生实验室的最新研究中，科学家们采用了一项革命性技术——利用大型语言模型（llm）来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性，有望提高车辆对驾驶指令的理解和响应速度。这项技术的关键是Talk2Drive框架，旨在利用人类自然语言来操控自动驾驶汽…

程序猿
2025年12月2日 • 用户投稿
0000
变革性趋势：生成式人工智能及其对软件开发的影响

人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法，对设计、开发、测试和部署等各个方面都会产生深远影响。对于企图进入动态软件开发领域的企业来说，生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后，公司可以大幅提升生产效率、缩短…

程序猿
2025年12月2日 • 用户投稿
0000
完善AI软硬件生态，联想集团在MWC2024发布最新AI PC

2月26日，在2024年世界移动通信大会（mwc 2024）上，联想集团发布全新thinkpad和thinkbook商务ai pc，展现了在全球ai pc领域的领导力。除硬件产品之外，联想还发布新的软件解决方案，包括lenovo identity advisor身份顾问和smart connect智…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
Sora无法替代人类！亚马逊工程师断言：实际工作冲突不可能靠AI解决

这一周，OpenAI视频AI工具Sora一出现，可谓是炸翻了天。「饭碗保不住了」的恐惧，真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片不过，亚马逊的一位工程师Cameron Gould则认为，其实并不必对AI如…

程序猿
2025年12月2日 • 用户投稿
0000
抢在竞争对手苹果之前！Meta发布最新款VR头戴设备

6月1日周四，meta公司ceo马克・扎克伯格抢在苹果公司wwdc大会召开之前，发布了该公司最新一代虚拟现实（vr）头显quest 3，499美元起售。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Quest 2于2020年秋季面市，售价…

程序猿
2025年12月2日 • 用户投稿
1000
致敬TempleOS，有开发者创建了启动Llama 2的操作系统，网友：8G内存老电脑就能跑

不得不说，Llama 2 的「二创」项目越来越硬核、有趣了。自 Meta 发布开源大模型 Llama 2 以来，围绕着该模型的「二创」项目便多了起来。此前 7 月，特斯拉前 AI 总监、重回 OpenAI 的 Andrej Karpathy 利用周末时间，做了一个关于 Llama 2 的有趣项目…

程序猿
2025年12月1日 • 用户投稿
0000
优刻得为智谱AI构建千卡推理集群，助力全球用户畅享大模型智能生活

回到 2021 年的一个夜晚，一位母亲陷入创作瓶颈，无法继续她的小说；父亲则忙于编写代码，设想在工作之余开发一款小游戏，但却被代码调试问题困扰；而他们的孩子，面对书桌上的一道奥数题，皱着眉头苦苦思索。 2024 年的今天，AI 大模型的出现让这一切发生改变。 ☞☞☞AI 智能聊天, 问答助手, AI…

程序猿
2025年12月1日 • 用户投稿
0000
2024国际自动驾驶挑战赛正式开始

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 新赛题：七大赛道，赛题新颖，全方位覆盖相关领域最新最热话题，充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金：总奖金池超过12万美金，单赛道最高奖金可达2.7万美金。据不完全统计，奖金…

程序猿
2025年12月1日 • 用户投稿
0000
AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说RAP

sora之后，居然还有新的ai视频模型，能惊艳得大家狂转狂赞！ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片有了它，《狂飙》大反派高启强化身罗翔，都能给大伙儿普法啦（狗头）。这就是阿里最新推出的基于音频驱动的肖像视频生成框架，EM…

程序猿
2025年12月1日 • 用户投稿
1000
让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

有了阿里的 emo，ai 生成或真实的图像「动起来说话或唱歌」变得更容易了。最近，以 OpenAI Sora 为代表的文生视频模型又火了起来。除了文本生成视频，以人为中心的视频合成一直备受关注。比如，专注于“说话人头部”的视频生成，其目标是根据用户提供的音频片段生成面部表情。在技术层面上，生成…

程序猿
2025年12月1日 • 用户投稿
2000
钉钉启动数智校园标杆校计划，联合小冰提供校长数字人

草长莺飞，春意盎然，又是一年开学季。新学期伊始，钉钉启动了“钉钉数智校园标杆校计划”，致力于为学校提供更安全高效的数智化沟通方式，助力学校迈向教育数智化新时%ign%ignore_a_1%re_a_1%。即日起，在钉钉搜索关键词“钉钉数智校园”，即可报名参加该计划。为更好地让标杆校体验最新ai应用带…

程序猿
2025年12月1日 • 用户投稿
0000
视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

蒙娜丽莎打哈欠，小鸡学会举铁……谷歌videopoet大模型表现很亮眼。 2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二，谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot …

程序猿
2025年12月1日 • 用户投稿
0000
可视化FAISS矢量空间并调整RAG参数提高结果精度

随着开源大型语言模型的性能不断提高，编写和分析代码、推荐、文本摘要和问答(qa)对的性能都有了很大的提高。但是当涉及到qa时，llm通常会在未训练数据的相关的问题上有所欠缺，很多内部文件都保存在公司内部，以确保合规性、商业秘密或隐私。当查询这些文件时，会使得llm产生幻觉，产生不相关、捏造或不一致的…

程序猿
2025年12月1日 • 用户投稿
0000