Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

程序猿 • 2025年11月11日 04:51:14 • 用户投稿 • 阅读 1

aniportrait 模型是开源的，可以自由畅玩。

「小破站鬼畜区的新质生产力工具。」

近日，腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait，其可基于音频和一张参考图像生成高质量动画人像。

话不说多，我们先看看可能会被律师函警告的 demo：

动漫图像也能轻松开口说话：

该项目刚上线几天，就已经收获了广泛好评：GitHub Star 数已经突破 2800。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

下面我们来看看 AniPortrait 的创新之处。

论文标题：AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

论文地址：https://arxiv.org/pdf/2403.17694.pdf

代码地址：https://github.com/Zejun-Yang/AniPortrait

AniPortrait

腾讯新提出的 AniPortrait 框架包含两个模块：Audio2Lmk 和 Lmk2Video。

Audio2Lmk 的作用是提取 Landmark 序列，其能从音频输入捕获复杂的面部表情和嘴唇动作。Lmk2Video 是利用这种 Landmark 序列来生成时间上稳定一致的高质量人像视频。

图 1 给出了 AniPortrait 框架的概况。

腾讯AI 开放平台

腾讯AI开放平台

161 查看详情

Audio2Lmk

对于一段语音片段序列，这里的目标是预测对应的 3D 人脸网格序列和姿势序列。

该团队采用了预训练的 wav2vec 来提取音频特征。该模型具有很好的泛化性能，并且可以准确识别音频中的发音和语调 —— 这对生成具有真实感的人脸动画来说至关重要。通过利用所获得的鲁棒的语音特征，使用一种包含两个 fc 层的简单架构就可以有效地将它们转换成 3D 人脸网格。该团队观察到，这种简单直接的设计不仅能确保准确度，而且还能提升推理过程的效率。

在将音频转换成姿势的任务中，该团队使用的骨干网络依然是同样的 wav2vec。但是，这一个网络的权重不同于音频到网格模块的网络。这是因为：姿势与音频中的节奏和音调的关联更加紧密，而音频到网格任务关注的重点（发音和语调）却不一样。为了将之前状态的影响纳入考量，该团队采用了一个 transformer 解码器来解码姿势序列。在这个过程中，该模块使用交叉注意力机制将音频特征整合进解码器。对于上述两个模块，训练使用的损失函数都是简单的 L1 损失。

在获得了网格和姿势序列之后，再使用透视投影将它们转换为 2D 的人脸 Landmark 序列。这些 Landmark 是下一阶段的输入信号。

Lmk2Video

给定一张参考人像和一个人脸 Landmark 序列，该团队提出的 Lmk2Video 可以创建具有时间一致性的人像动画。这个动画过程是将动作与 Landmark 序列对齐，同时维持与参考图像一致的外观。该团队采取的思路是将人像动画表示成一个人像帧构成的序列。

Lmk2Video 的这种网络结构设计的灵感来自 AnimateAnyone。其中的骨干网络是 SD1.5，其整合了一个时间运动模块，能有效地将多帧噪声输入转换成一个视频帧序列。

另外，他们还使用了一个 ReferenceNet，其同样采用了 SD1.5 的结构，作用是提取参考图像的外观信息并将其整合进骨干网络中。这一策略设计可确保人脸 ID 在整个输出视频中保持一致。

不同于 AnimateAnyone，这里提升了 PoseGuider 的设计的复杂性。原来的版本只是集成了几个卷积层，之后 Landmark 特征与骨干网络的输入层的隐含特征融合。而腾讯的这个团队发现，这种初级设计无法捕获嘴唇的复杂运动。因此，他们采用了 ControlNet 的多尺度策略：将相应尺度的 Landmark 特征整合进骨干网络的不同模块。尽管有这些改进，但最终模型的参数数量依然相当低。

该团队还引入了另一项改进：将参考图像的 Landmark 用作一个额外的输入。PoseGuider 的交叉注意力模块能促进参考 Landmark 和每一帧的目标 Landmark 之间的互动。这一过程能为网络提供额外的线索，使其能够理解人脸 Landmark 和外观之间的关联，由此可帮助人像动画生成更精准的动作。

实验

实现细节

Audio2Lmk 阶段使用的骨干网络是 wav2vec2.0。用于提取 3D 网格和 6D 姿势的工具是 MediaPipe。Audio2Mesh 的训练数据来自腾讯的内部数据集，其中包含接近一个小时的来自单个说话人的高质量语音数据。

为了确保 MediaPipe 提取出的 3D 网格的稳定性，在记录期间，表演者头部位置稳定并且面向相机。训练 Audio2Pose 使用的是 HDTF。所有的训练操作都在单台 A100 上执行，使用了 Adam 优化器，学习率设置为 1e-5.

Lmk2Video 过程则采用了一种两步式训练方法。

起始步骤阶段关注的重点是训练骨干网络 ReferenceNet 以及 PoseGuider 的 2D 组件，而不管运动模块。在后续步骤，则会冻结其它所有组件，专注于训练运动模块。为了训练模型，这里使用了两个大规模高质量人脸视频数据集：VFHQ 和 CelebV-HQ。所有数据都经由 MediaPipe 来提取 2D 人脸 Landmark。为了提升网络对嘴唇运动的敏感性，该团队的做法是在根据 2D Landmark 渲染姿势图像时，给上下唇标注不同的颜色。

所有图像的分辨率都重新调整成了 512×512。该模型的训练使用了 4 台 A100 GPU，每一步都耗时 2 天。优化器是 AdamW，学习率固定为 1e-5。

实验结果

如图 2 所示，新方法得到的动画在质量和真实度上都非常出色。

此外，用户还可以编辑其中间的 3D 表征，从而对最终输出进行修改。举个例子，用户可从某个源提取 Landmark 并修改其 ID 信息，从而实现面部重现效果，如下视频所示：

更多细节请参考原论文。

以上就是Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/617771.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

sql降序索引怎么弄

上一篇 2025年11月11日 04:51:04

Java导出Excel：如何使用GcExcel库添加单元格注释？

下一篇 2025年11月11日 04:51:19

用户投稿

如何html转化URL_将HTML文件或内容转换为URL链接【链接】

需将HTML转为可访问URL，必须部署到HTTP服务器：一、本地开发服务器（如python -m http.server）；二、GitHub Pages永久托管；三、htmlpreview在线预览；四、云存储静态托管；五、data URL编码内联。如果您拥有一个HTML文件或一段HTML内容，需要…

程序猿
2025年12月23日
0000
用户投稿

如何抓取HTML内嵌视频_资源提取方法解析【技巧】

提取网页内嵌视频实际地址需按五种方法操作：一查video/source标签；二用开发者工具抓media请求；三解析iframe目标页；四下载并处理m3u8流；五借助浏览器扩展自动识别。如果您希望从网页中提取HTML内嵌视频的实际播放地址或原始资源文件，则可能是由于视频未提供直接下载链接，且被封装在…

程序猿
2025年12月23日
0000
用户投稿

HTML如何设置自定义域名_部署绑定步骤详解【指南】

需通过DNS解析与Web服务器配置共同完成域名绑定：先确保域名实名认证并部署网站，再按平台要求配置CNAME或A记录，GitHub Pages需上传CNAME文件，自建服务器需配置Nginx虚拟主机，最后推荐启用HTTPS。如果您已拥有一个域名并希望将其绑定到HTML静态网站，需通过DNS解析与W…

程序猿
2025年12月23日
0000
用户投稿

qq中如何使用html_在QQ中发送与展示HTML内容【展示】

QQ不支持直接渲染HTML，可用五种方法展示：一、转为富文本图片；二、用“图文消息”卡片；三、嵌入QQ小程序WebView；四、以代码块发源码（限技术交流）；五、通过QQ邮箱发ZIP附件。如果您希望在QQ中发送或展示HTML内容，需注意QQ客户端本身不支持直接渲染HTML代码。以下是实现HTML内…

程序猿
2025年12月23日
0000
用户投稿

怎么在微信上运行html代码_微信运行html代码方法【指南】

答案是通过将HTML部署为公网链接或使用在线工具生成可访问网址，再在微信中打开链接来间接实现HTML页面展示。具体可通过GitHub Pages等平台托管网页、利用小程序web-view组件加载、或用JSBin等在线编辑器生成预览链接发送至微信查看，注意兼容性与安全限制。微信本身不支持直接运行HT…

程序猿
2025年12月23日
0000
用户投稿

html如何做个地图_使用HTML与JS集成在线地图【在线】

网页嵌入可交互在线地图需借助第三方API：一、高德地图需申请Key并引入SDK；二、百度地图需获取AK并初始化BMap；三、Leaflet配合OSM免密钥但需遵守版权；四、腾讯地图支持iframe快速嵌入但交互受限；五、Google Maps Embed API需有效密钥且限国际使用。如果您希望在…

程序猿
2025年12月23日
0000
用户投稿

在网站怎么运行html_网站运行html方法【教程】

答案是将HTML文件部署到服务器或使用托管平台使其可通过浏览器访问。首先可在本地用Live Server或Python命令测试，仅限本机查看；正式发布需将文件上传至云服务器并配置Apache等服务，或更便捷地使用GitHub Pages、Vercel、Netlify等静态托管平台，部署后通过域名访问…

程序猿
2025年12月23日
0000
用户投稿

html网页怎么在微信运行_微信运行html网页方法【指南】

首先确保HTML网页通过HTTPS访问，部署在支持SSL的服务器上；其次可通过微信公众平台配置安全域名并发布链接以提升兼容性；接着使用微信开发者工具进行调试，检查脚本错误与资源加载问题；然后优化代码适配微信浏览器，避免使用非标准CSS、弹窗操作及相对路径资源；最后可直接通过微信聊天发送链接测试页面加…

程序猿
2025年12月23日
0000
用户投稿

HTML5移动开发怎么用_HTML5新特性在移动Web开发中的应用技巧

HTML5凭借语义化标签、本地存储、多媒体支持和设备API等特性，广泛应用于移动Web开发。使用、、等标签提升结构清晰度与可访问性，结合Flex或Grid实现响应式布局；通过localStorage和sessionStorage缓存数据，优化离线体验；利用、原生支持音视频播放，节省流量并提升交互；结…

程序猿
2025年12月23日
1000
html如何使用视频_HTML视频（video/iframe）嵌入与控制方法

使用video标签可嵌入本地视频并支持多格式兼容，通过controls、autoplay等属性控制播放；iframe则用于嵌入YouTube等第三方平台视频，需设置src为视频ID并配置allow权限，两者均可通过poster、JavaScript或URL参数实现封面、播放控制与功能优化。在网页中…

程序猿
用户投稿 2025年12月23日
0000
用户投稿

html缓存内容怎么一键删除_html缓存内容一键删除的完整攻略

网页加载异常或显示旧内容时，可通过清除浏览器缓存解决。首先在Chrome、Edge等浏览器中按Ctrl+Shift+Delete选择“所有时间”并勾选“缓存的图像和文件”后清除；其次使用开发者工具右键“检查”或F12，长按刷新按钮选择“清空缓存并硬性重新加载”，或直接按Ctrl+F5强制刷新；还可修…

程序猿
2025年12月23日
0000
用户投稿

html如何改域名_HTML网站域名（DNS解析）修改绑定方法

更换网站域名需配置DNS解析和服务器设置，首先在域名平台添加A记录指向服务器IP，并在服务器中绑定新域名，最后更新网站内部链接为新域名或相对路径。修改HTML网站绑定的域名本质上不是在HTML文件中操作，而是通过DNS解析和服务器配置来实现。HTML本身是静态网页语言，不涉及域名绑定逻辑。要更换网…

程序猿
2025年12月23日
0000
用户投稿

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
用户投稿

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
用户投稿

html源码怎么保存为云端网页源码_html源码保存到云端的技巧

1、可通过GitHub Pages、Vercel、Netlify或云存储服务将HTML源码部署为云端网页。2、GitHub Pages免费且支持自定义域名，适合静态页面；Vercel与Netlify提供一键部署，操作便捷；云存储如OSS需设公共读权限并获取外链。如果您希望将本地编写的HTML源码保…

程序猿
2025年12月23日
0000
用户投稿

怎么部署HTML在线展示页面_HTML在线展示页面部署流程与托管平台选择

部署HTML页面需准备文件、选托管平台、上传并发布。首先确保index.%ignore_a_1%及资源路径正确，本地测试无误；接着选择GitHub Pages、Vercel、Netlify或云存储等平台；以GitHub Pages为例，推送代码至仓库后在Settings中启用Pages功能，系统自动…

程序猿
2025年12月23日
0000
用户投稿

html5怎么做网站_HTML5网站建设流程与设计要点

明确目标后规划网站结构，使用语义化HTML5标签搭建内容框架，通过响应式设计适配多设备，优化图片与代码提升加载速度，并经多环境测试后部署至静态托管平台完成上线。做HTML5网站不只是写代码，而是从规划到上线的完整过程。重点在于响应式设计、语义化结构和良好的用户体验。以下是实际操作中的关键步骤和设计…

程序猿
2025年12月23日
0000
用户投稿

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
用户投稿

html5文件如何实现云存储对接 html5文件直传云服务的配置指南

答案：通过配置阿里云OSS、腾讯云COS、华为云OBS和七牛云Kodo的前端直传方案，可实现文件不经过服务器中转直接上传至云存储。1、阿里云OSS使用PostObject接口，后端生成policy和签名，前端构造POST请求上传；2、腾讯云COS通过STS获取临时密钥，前端使用cos-js-sdk-…

程序猿
2025年12月23日
0000
用户投稿

如何通过HTML在线展示地图_HTML在线地图展示实现与API集成方案

选择合适的地图API如高德地图，通过申请密钥、引入JS API并初始化地图实例，可在HTML中快速实现交互式地图展示，结合标记与信息窗口增强功能，注意密钥安全与性能优化。要在网页中实现地图展示，最常用的方式是集成第三方地图API，比如Google Maps、高德地图或腾讯地图。这些服务提供Java…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

关于作者

相关推荐

发表回复