Meta 推出音频转图像 AI 框架，用于生成人物对话场景的配音

程序猿 • 2025年11月7日 19:24:55 • 用户投稿 • 阅读 0

it之家 1 月 9 日消息，meta 日前公布了一项名为 audio2photoreal 的 ai 框架，该框架能够生成一系列逼真的 npc 人物模型，并借助现有配音文件自动为人物模型“对口型”“摆动作”。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

▲ 图源 Meta 研究报告（下同）

IT之家从官方研究报告中得知，Audio2photoreal 框架在接收到配音文件后，首先生成一系列 NPC 模型，之后利用量化技术及扩散算法生成模型用动作，其中量化技术为框架提供动作样本参考、扩散算法用于改善框架生成的人物动作效果。

研究人员提到，该框架可以生成 30 FPS 的“高质量动作样本”，还能模拟人类在对话中“手指点物”、“转手腕”或“耸肩”等不由自主的“习惯性动作”。

冬瓜配音

AI在线配音生成器

66 查看详情

研究人员援引自家实验结果，在对照实验中有 43% 的评估者对框架生成的人物对话场景感到“强烈满意”，因此研究人员认为 Audio2photoreal 框架相对于业界竞品能够生成“更具动态和表现力”的动作。

据悉，研究团队目前已经在 GitHub 公开了相关代码和数据集，感兴趣的小伙伴可以点此访问。

以上就是Meta 推出音频转图像 AI 框架，用于生成人物对话场景的配音的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/442751.html

udio

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

怎样使用VSCode的任务（Tasks）功能？

上一篇 2025年11月7日 19:24:52

vivo NEX 3s开发者选项的开启方法

下一篇 2025年11月7日 19:24:55

AI动画制作工具排行榜能免费使用的10款AI动画制作工具推荐

以下是10款免费的AI动画制作工具：1.智影：腾讯推出的在线视频制作平台，提供日漫风格，限时免费。2.Artflow：AI动画创建工具，Story Studio具有视频漫画生成功能，支持12种画面视觉风格。3.Flow Studio：通过文字生成视频片段，支持多种画面风格，新用户有200积分免费生成…

程序猿
2025年12月4日 • 用户投稿
7000
Pollinations.AI— 开源AI内容生成平台，提供免费文本和图像生成API

pollinations.ai 是一个开源的ai内容生成平台，提供免费且易于使用的文本和图像生成api。pollinations.ai无需注册或api密钥即可使用，支持多种功能，包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。pollinations.ai提供丰富的api接口和sdk，方…

程序猿
2025年12月4日 • 用户投稿
2000
StepAudio R1— 阶跃星辰开源的原生音频推理模型

StepAudio R1是什么 stepaudio r1 是由阶跃星辰研发并开源的全球首款原生音频推理模型，标志着音频智能处理领域的重大突破。该模型采用创新的模态锚定推理蒸馏（mgrd）框架，有效解决了传统音频模型在复杂逻辑推理任务中表现不佳的问题，真正实现了基于声学特征的深度推理能力。在多项权威基…

程序猿
2025年12月2日 • 用户投稿
0000
Udio怎样用风格模型仿流派_Udio用风格模型仿流派【流派模仿】

一、选择与目标流派匹配的预训练风格模型，如“Neo-Soul Groove”用于灵魂乐；二、在提示栏输入流派关键词、参考艺术家及音乐结构描述；三、可选上传WAV/MP3参考音频，系统分析节奏、音色等特征；四、调整Groove Quantization、Harmonic Constraint等参数以强…

程序猿
2025年12月2日 • 用户投稿
0000
ReplicaStudios怎样用情绪参数调戏感_ReplicaStudios用情绪参数调戏感【情绪演绎】

通过调整ReplicaStudios的情绪参数可显著提升语音情感表现力：一、在文本输入界面添加情绪标签，选择如“anger”“joy”等情绪类型并设置0.0–1.0强度值；二、叠加多种情绪（如“fear”0.7+“surprise”0.5）以构建复杂情感层次，避免冲突失真；三、联动调节音高与语速，激…

程序猿
2025年12月2日 • 用户投稿
0000
Gemini怎样用多模态分析图文数_Gemini用多模态分析图文数【多模分析】

Gemini处理图文数据需启用多模态功能，1、选Gemini Pro Vision模型并开启multimodal选项；2、上传图像并关联文本构成请求体；3、图像编码为Base64或提供URL；4、用”parts”字段封装图文数据且图像在前；5、提示词明确任务目标与操作类型；6…

程序猿
2025年12月2日 • 用户投稿
0000
真快！几分钟就把视频语音识别为文本了，不到10行代码

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 大家好，我是风筝两年前，将音视频文件转换为文字内容的需求难以实现，但是如今只需几分钟便可轻松解决。据说一些公司为了获取训练数据，已经对抖音、快手等短视频平台上的视频进行了全面爬取，然后将视频…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
用户投稿

Kimi-Audio— Moonshot AI 开源的音频基础模型

kimi-audio 是由 moonshot ai 推出的开源音频基础模型，专注于音频理解、生成和对话任务。它在超过 1300 万小时的多样化音频数据上进行预训练，具备强大的音频推理和语言理解能力。其核心架构采用混合音频输入（连续声学 + 离散语义标记），结合基于 llm 的设计，支持并行生成文本和…

程序猿
2025年12月2日
0000
如何通过AI生成体育精彩集锦_体育视频AI精彩片段自动生成教程

AI可自动提取体育赛事精彩瞬间：首先上传视频至AI平台并选择对应运动模型，系统通过动作、声音和观众反应识别高光时刻；其次本地部署TensorFlow等框架，利用预训练模型如SlowFast分析视频帧，筛选高置信度事件导出片段；最后融合解说关键词、音频峰值与画面动态，多模态对齐提升识别精度，生成高质量…

程序猿
2025年12月2日 • 用户投稿
0000
AI视频剪辑免费入口 AI自动配音配字幕工具

AI视频剪辑免费入口为https://app.spikes.studio，该平台支持视频上传、智能剪辑、自动配音配字幕，新用户完成任务可获10分钟免费额度，邀请好友还可叠加使用时长，适合个人创作者高效制作短视频。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek…

程序猿
2025年12月2日 • 用户投稿
0000
哩布哩布AI怎么生成3D模型_哩布哩布AI图生3D功能最新教程

使用哩布哩布AI生成2D图像并结合Tripo AI转换为3D模型，具体步骤包括：登录哩布哩布AI官网，选择合适模型并输入详细提示词生成正方形图像，下载后上传至Tripo AI进行自动3D重建，可导出PLY或GLB格式；为进一步提升效果，可借助DeepSeek优化提示词，并通过CherryStudio…

程序猿
2025年12月2日 • 用户投稿
1000
松鼠AI怎么下载学习资料_松鼠AI课后资料包一键下载教程

可通过三种方式获取松鼠AI课后资料：一、使用学生端“资料下载”或“生成学习报告”功能导出PDF版知识点与错题；二、用浏览器开发者工具在Network中抓取已加载的视频、PDF等资源并保存；三、通过录屏软件录制教学过程，或截图保存静态内容。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无…

程序猿
2025年12月2日 • 用户投稿
0000
Bee— 清华联合腾讯开源的全栈多模态大模型解决方案

Bee是什么 bee是由清华大学与腾讯混元团队联合研发的高质量多模态大语言模型（mllm）项目，旨在突破当前开源模型因训练数据质量不足而导致的性能瓶颈。该项目的核心成果包括：honey-data-15m——一个包含约1500万高质量问答对的监督微调数据集，通过多阶段清洗流程和双层思维链（cot）扩展…

程序猿
2025年12月2日 • 用户投稿
0000
百度AI文心一言怎么创作歌曲_百度AI文心一言AI作曲入门教程

首先通过文心一言生成歌词，输入具体主题与结构指令获取文本；再将歌词导入Suno、AIVA等AI作曲平台，设置风格、调式与节奏参数生成旋律伴奏；接着调整歌词断句与音节匹配旋律节奏，优化MIDI文件中的重音与节拍对应关系；最后利用ACE Studio等工具合成虚拟人声，添加滑音、气声等细节，并用Auda…

程序猿
2025年12月2日 • 用户投稿
0000
腾讯推出混元3D Studio，3D资产生产周期从“天”缩至“分钟”！

腾讯混元官微近日宣布，正式推出专为3d设计师、游戏开发者与建模师打造的专业级ai 3d工作台——混元3d studio。该平台深度融合AI技术，全面整合概念设计、几何建模、贴图生成、蒙皮处理到动画制作等3D创作全流程，将传统以“天”为单位的3D资产生产周期，大幅压缩至“分钟”级别，实现效率的革命性…

程序猿
2025年12月2日 • 用户投稿
0000
腾讯AI语音识别ASR怎么转换音频文件_腾讯AI ASR语音转文字完整操作指南

腾讯云ASR服务支持通过控制台、API和移动端应用将音频文件转写为文字。用户可登录控制台上传音频并设置参数进行识别，开发者可通过API调用实现自动化处理，移动用户则可使用集成ASR功能的应用快速完成转换，适用于会议记录、访谈整理等场景。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限…

程序猿
2025年12月2日 • 用户投稿
0000
gemini2怎么调整模型温度_gemini2模型温度调整参数详尽说明

调整Gemini 2模型输出的关键是设置temperature参数，通过API或Google AI Studio可调节其值（0.0–2.0）以控制随机性，结合topP参数协同优化生成效果。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果…

程序猿
2025年12月2日 • 用户投稿
1000
grokai如何编辑内容_grokai内容编辑功能使用及版本历史查看

可通过Grok Studio编辑内容并利用对话历史追溯版本。1、登录后启用Grok Studio，直接修改生成的文本、代码或报告，并保存；2、通过“历史记录”查看过往对话，找到目标会话还原内容迭代过程，手动复制旧版本恢复；3、通过输入新指令引导Grok重新生成内容，实现动态调整，直至满足需求。建议定…

程序猿
2025年12月2日 • 用户投稿
0000
腾讯混元3D-Omni与3D-Part发布开源，推动3D生成模型落地应用

近日，“腾讯混元”公众号宣布，混元3d生成模型家族迎来两位新成员——混元3d – omni与混元3d – part，均已正式发布并全面开源。此举标志着腾讯混元在可控3D生成技术领域迈出了关键一步，显著提升了AI进行3D建模的实用性和精准度，进一步加速了3D生成技术在游戏开发…

程序猿
用户投稿 2025年12月2日
1000

发表回复

登录后才能评论

Meta 推出音频转图像 AI 框架，用于生成人物对话场景的配音

关于作者

相关推荐

发表回复