vall-e

只需3秒就能偷走你的声音！微软发布语音合成模型VALL-E：网友惊呼「电话诈骗」门槛又拉低了

让ChatGPT帮你写剧本，Stable Diffusion生成插图，做视频就差个配音演员了？它来了！最近来自微软的研究人员发布了一个全新的文本到语音（text-to-speech, TTS）模型VALL-E，只需要提供三秒的音频样本即可模拟输入人声，并根据输入文本合成出对应的音频，而且还可以保持…

程序猿
2025年11月9日 • 用户投稿
0000

关注微信