Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

aniportrait 模型是开源的,可以自由畅玩。

「小破站鬼畜区的新质生产力工具。」
近日,腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait,其可基于音频和一张参考图像生成高质量动画人像。
话不说多,我们先看看可能会被律师函警告的 demo:Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话
动漫图像也能轻松开口说话:Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话
该项目刚上线几天,就已经收获了广泛好评:GitHub Star 数已经突破 2800。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

下面我们来看看 AniPortrait 的创新之处。

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

论文标题:AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
论文地址:https://arxiv.org/pdf/2403.17694.pdf
代码地址:https://github.com/Zejun-Yang/AniPortrait
AniPortrait
腾讯新提出的 AniPortrait 框架包含两个模块:Audio2Lmk 和 Lmk2Video。
Audio2Lmk 的作用是提取 Landmark 序列,其能从音频输入捕获复杂的面部表情和嘴唇动作。Lmk2Video 是利用这种 Landmark 序列来生成时间上稳定一致的高质量人像视频。
图 1 给出了 AniPortrait 框架的概况。

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

腾讯AI 开放平台 腾讯AI 开放平台

腾讯AI开放平台

腾讯AI 开放平台 161 查看详情 腾讯AI 开放平台

Audio2Lmk
对于一段语音片段序列,这里的目标是预测对应的 3D 人脸网格序列和姿势序列。
该团队采用了预训练的 wav2vec 来提取音频特征。该模型具有很好的泛化性能,并且可以准确识别音频中的发音和语调 —— 这对生成具有真实感的人脸动画来说至关重要。通过利用所获得的鲁棒的语音特征,使用一种包含两个 fc 层的简单架构就可以有效地将它们转换成 3D 人脸网格。该团队观察到,这种简单直接的设计不仅能确保准确度,而且还能提升推理过程的效率。
在将音频转换成姿势的任务中,该团队使用的骨干网络依然是同样的 wav2vec。但是,这一个网络的权重不同于音频到网格模块的网络。这是因为:姿势与音频中的节奏和音调的关联更加紧密,而音频到网格任务关注的重点(发音和语调)却不一样。为了将之前状态的影响纳入考量,该团队采用了一个 transformer 解码器来解码姿势序列。在这个过程中,该模块使用交叉注意力机制将音频特征整合进解码器。对于上述两个模块,训练使用的损失函数都是简单的 L1 损失。
在获得了网格和姿势序列之后,再使用透视投影将它们转换为 2D 的人脸 Landmark 序列。这些 Landmark 是下一阶段的输入信号。
Lmk2Video
给定一张参考人像和一个人脸 Landmark 序列,该团队提出的 Lmk2Video 可以创建具有时间一致性的人像动画。这个动画过程是将动作与 Landmark 序列对齐,同时维持与参考图像一致的外观。该团队采取的思路是将人像动画表示成一个人像帧构成的序列。
Lmk2Video 的这种网络结构设计的灵感来自 AnimateAnyone。其中的骨干网络是 SD1.5,其整合了一个时间运动模块,能有效地将多帧噪声输入转换成一个视频帧序列。
另外,他们还使用了一个 ReferenceNet,其同样采用了 SD1.5 的结构,作用是提取参考图像的外观信息并将其整合进骨干网络中。这一策略设计可确保人脸 ID 在整个输出视频中保持一致。
不同于 AnimateAnyone,这里提升了 PoseGuider 的设计的复杂性。原来的版本只是集成了几个卷积层,之后 Landmark 特征与骨干网络的输入层的隐含特征融合。而腾讯的这个团队发现,这种初级设计无法捕获嘴唇的复杂运动。因此,他们采用了 ControlNet 的多尺度策略:将相应尺度的 Landmark 特征整合进骨干网络的不同模块。尽管有这些改进,但最终模型的参数数量依然相当低。
该团队还引入了另一项改进:将参考图像的 Landmark 用作一个额外的输入。PoseGuider 的交叉注意力模块能促进参考 Landmark 和每一帧的目标 Landmark 之间的互动。这一过程能为网络提供额外的线索,使其能够理解人脸 Landmark 和外观之间的关联,由此可帮助人像动画生成更精准的动作。
 
实验
实现细节
Audio2Lmk 阶段使用的骨干网络是 wav2vec2.0。用于提取 3D 网格和 6D 姿势的工具是 MediaPipe。Audio2Mesh 的训练数据来自腾讯的内部数据集,其中包含接近一个小时的来自单个说话人的高质量语音数据。
为了确保 MediaPipe 提取出的 3D 网格的稳定性,在记录期间,表演者头部位置稳定并且面向相机。训练 Audio2Pose 使用的是 HDTF。所有的训练操作都在单台 A100 上执行,使用了 Adam 优化器,学习率设置为 1e-5.
Lmk2Video 过程则采用了一种两步式训练方法。
起始步骤阶段关注的重点是训练骨干网络 ReferenceNet 以及 PoseGuider 的 2D 组件,而不管运动模块。在后续步骤,则会冻结其它所有组件,专注于训练运动模块。为了训练模型,这里使用了两个大规模高质量人脸视频数据集:VFHQ 和 CelebV-HQ。所有数据都经由 MediaPipe 来提取 2D 人脸 Landmark。为了提升网络对嘴唇运动的敏感性,该团队的做法是在根据 2D Landmark 渲染姿势图像时,给上下唇标注不同的颜色。
所有图像的分辨率都重新调整成了 512×512。该模型的训练使用了 4 台 A100 GPU,每一步都耗时 2 天。优化器是 AdamW,学习率固定为 1e-5。
实验结果
如图 2 所示,新方法得到的动画在质量和真实度上都非常出色。

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

此外,用户还可以编辑其中间的 3D 表征,从而对最终输出进行修改。举个例子,用户可从某个源提取 Landmark 并修改其 ID 信息,从而实现面部重现效果,如下视频所示:Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话更多细节请参考原论文。 

以上就是Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/617771.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 04:50:59
下一篇 2025年11月11日 04:51:36

相关推荐

  • 微信红包提示异常怎么办 微信红包领取与发送优化方法

    答案是多数微信红包异常可自助解除。进入钱包帮助中心选择解除支付限制,按提示完成人脸识别或补充信息;若失败则通过腾讯客服小程序提交申诉,注明情况并上传证明材料;解除后确保实名认证、避免频繁收发红包,多进行正规消费以提升账户可信度,防止再次受限。 微信红包提示异常,多数情况是系统风控触发的临时限制。别急…

    2025年12月6日 软件教程
    000
  • 如何彻底解决苹果手机QQ闪退_彻底解决苹果手机QQ闪退的步骤

    首先更新QQ和iOS系统至最新版本,其次清理QQ缓存或重装应用,接着关闭后台程序并确保足够存储空间,最后尝试还原所有设置或通过电脑恢复系统,多数闪退问题可解决。 苹果手机QQ闪退通常由应用兼容性、系统资源不足或缓存异常导致。解决这类问题需要从基础排查到深度修复逐步进行,多数情况下无需专业工具也能搞定…

    2025年12月6日 手机教程
    000
  • 腾讯元宝网页版通道 腾讯元宝官网直接入口

    腾讯元宝官网网页版支持微信、QQ、手机号登录,无需下载即可使用智能对话、文件解析、内容创作和AI阅读等功能,还可通过App、小程序等多端使用。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 腾讯元宝的官方网页版可以直接通过官网地址访问。打开…

    2025年12月6日 科技
    000
  • 腾讯朱雀AI在线检测 朱雀大模型官网网页版链接工具

    腾讯朱雀AI在线检测入口地址是https://matrix.tencent.com/ai-detect,用户可直接访问官网使用文本或图片检测功能,无需注册登录;平台支持粘贴文本或上传文档进行AI生成内容检测,5秒内生成报告,标注AI生成概率、具体段落及语言风格特征,帮助用户高效辨别内容来源。 ☞☞☞…

    2025年12月6日 科技
    000
  • 朱雀AI大模型官网 腾讯朱雀检测平台网页版入口

    朱雀AI大模型官网腾讯朱雀检测平台网页版入口为https://matrix.tencent.com/ai-detect/,该平台支持文本与图像的AI生成内容检测,提供智能分析、高亮标注及详细报告,用户可直接访问使用基础功能,登录腾讯云账户则享完整服务。 ☞☞☞AI 智能聊天, 问答助手, AI 智能…

    2025年12月6日 科技
    000
  • 腾讯元宝AI在线试用入口 腾讯元宝网页版快速入口

    腾讯元宝AI在线试用入口是https://yuanbao.tencent.com/,用户可通过该网页体验其文档处理、AI创作辅助及图像搜索等智能化功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 腾讯元宝AI在线试用入口在哪里?这是不少…

    2025年12月6日 科技
    000
  • 突然就“推理 Agent 元年”了,再聊 AI Chat 与 AI Agent

    今年 3 月份,我们还在以为 ai agent 的新纪元需要等到“泛 agi”,依靠大模型自身的能力和与之相辅相成的一系列技术的发展,诸如 rag、调用链等,去将大模型的能力更深入地“外置”给 agent 单元体。 然而到了下半年,随着大模型自身推理能力的爆发,以及生态中 MCP、ACP、A2A、上…

    2025年12月6日 行业动态
    000
  • 腾讯元宝在线访问入口 腾讯元宝网页直达地址

    腾讯元宝的访问入口为yuanbao.tencent.com,用户可通过官网登录使用AI写作、文档精读、代码协助、划词互动和截屏提问等功能,同时支持电脑客户端与手机应用下载,集成联网搜索、高速通道及AI画图,提升多端使用效率。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 De…

    2025年12月6日 科技
    000
  • win11怎么找回经典右键菜单_win11恢复经典右键菜单技巧

    可通过注册表编辑器、第三方工具或安全软件恢复Windows 11经典右键菜单。首先备份注册表,创建特定CLSID项并清空InprocServer32默认值,重启资源管理器;或使用可信小工具输入指令一键切换;亦可借助360、腾讯电脑管家等软件的右键管理功能启用旧版菜单。 如果您发现Windows 11…

    2025年12月5日
    000
  • QQ浏览器怎么下载安装_QQ浏览器下载安装最新版本教程

    想下载安装最新版QQ浏览器,整个过程其实很简单,几分钟就能搞定。关键是要去官网下,避免第三方平台捆绑的“坑”。下面一步步告诉你怎么操作。 1. 找到官方下载渠道 打开电脑浏览器,在地址栏输入腾讯官方网址 https://browser.qq.com,这是最安全的来源。页面会自动识别你的操作系统(Wi…

    2025年12月5日
    000
  • Composer如何安装依赖_项目依赖包添加与安装指南

    Composer是PHP依赖管理工具,通过composer.json定义依赖,执行composer install安装库并生成vendor目录和composer.lock锁定版本,确保团队环境一致;使用composer update更新依赖,可指定包名;冲突时可升级依赖、调整版本约束或使用diagn…

    2025年12月5日
    000
  • Composer如何配置GitHub token_解决API速率限制问题

    配置GitHub Token可解决Composer因API速率限制导致的安装问题,通过生成具备repo和read:packages权限的Token并全局或项目级配置,提升访问频率;若仍受限,可能因权限不足、IP共享、滥用或泄露所致,可通过使用镜像源、启用缓存、减少依赖等方式进一步优化,验证时可用cu…

    2025年12月5日
    000
  • 腾讯VIP如何转让会员资格 腾讯VIP账号权益的转移指南

    腾讯视频会员可转移或共享,官方支持绑定的微信与QQ账号间一次性互转时长,路径为“我的”-“VIP帮助服务中心”-“会员转移”;也可通过“赠送好友”功能将部分时长赠予他人;无法转移时可通过第三方平台如“京回收”回收变现;或通过设备授权方式与亲友共享账号使用,但需注意设备数量限制及安全风险。 如果您希望…

    2025年12月5日
    000
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • 宝塔面板怎么安装和使用composer_宝塔Linux面板快速安装与管理composer的教程

    如果您在服务器上部署PHP项目时需要依赖管理工具,但尚未安装Composer,则可以通过宝塔Linux面板快速完成安装与配置。以下是具体操作步骤: 本文运行环境:腾讯云服务器,Ubuntu 22.04 一、通过宝塔软件商店安装Composer 宝塔面板集成了常用应用的快捷安装功能,Composer可…

    2025年12月4日
    000
  • 重装系统数据丢了怎么找回来?恢复教程来了!

    很多人在重新安装windows系统后才意识到,桌面上的文档、照片和各类文件全都消失了。原本只是想让电脑运行更流畅,结果却意外丢失了重要资料,令人十分懊恼。本文将为你介绍几种实用的方法,帮助你找回那些看似“消失”的文件。 一、切勿写入新数据 在尝试恢复文件之前,最关键的一步是:不要再向硬盘中写入新的数…

    2025年12月4日 电脑教程
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    000
  • Pollinations.AI— 开源AI内容生成平台,提供免费文本和图像生成API

    pollinations.ai 是一个开源的ai内容生成平台,提供免费且易于使用的文本和图像生成api。pollinations.ai无需注册或api密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。pollinations.ai提供丰富的api接口和sdk,方…

    2025年12月4日 科技
    000
  • Windows10系统图片文字信息快速识别

    如今,网络上的许多信息以图片或pdf文件的形式发布,若想提取文件中的文字内容,只能依赖ocr技术。然而,这类技术通常集成于专业软件中,不仅操作繁琐,还会占用大量系统资源。那么,是否存在一些轻量级的小工具能够实现类似功能呢? 快速识别图片文字信息 实际上,这样的小型工具确实存在,例如Easy Scre…

    2025年12月4日 系统教程
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000

发表回复

登录后才能评论
关注微信