如何用紧凑型语音表征打造高性能语音合成系统

程序猿 • 2025年11月10日 02:10:02 • 科技 • 阅读 0

小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器（VQ-VAE）的特征分析器采用若干码本对声学特征进行阶段式编码，形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得，并且通过神经声码器转换成目标音频。该方案，对比基于Mel-Spectrogram的Fastspeech 基线系统，音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”，并被语音领域会议 INTERSPEECH 2022 接收。

一、背景介绍

语音合成（Text-to-Speech, 简称 TTS）是把文本转化为语音的一种技术，被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括特征提取器，声学模型和声码器三部分。TTS 通常会对基于信号处理获得的声学特征（例如梅尔谱 Mel Spectrogram）进行声学建模，但受限于模型的拟合能力，预测得到的声学特征和真实数据在分布上存在一定差异，这导致在真实数据上训练的声码器难以从预测特征中生成高质量音频。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

TTS 系统框架图

针对这一难题，学界使用了更为复杂的模型结构和更为新颖的生成式算法以减小预测误差和缩小分布差异。而本工作另辟蹊径，以紧凑型语音表征为出发点来考虑问题。对语音合成来说，1）声学特征良好的紧凑性能够保证更为准确的模型预测结果和更鲁棒的波形生成；2）声学特征良好的完备性能够保证更好地重构语音信号。基于这两点考虑，本文提出采用矢量量化变分自编码器（VQ-VAE）从目标数据中挖掘出一种更好的紧凑型表示。

二、表征学习 MSMC VQ-VAE

VQ-VAE 包括编码器与解码器。编码器将输入声学特征序列加工为隐序列并用相应码本进行量化。而解码器把经过量化的序列恢复为原始声学特征序列。这种量化序列作为离散化表征具有较好的紧凑性（特征参数量较少）。其中量化程度越高，即码本容量越小，特征紧凑程度就越高。但这也造成了信息压缩，使特征完备度变差。为了确保足够的完备性，一般都会使用更多的码字。但随着码本容量的增加，码本更新所需的数据量以及训练次数将呈指数级递增，这使得 VQ-VAE 难以通过增大码本来有效增强表征完备性。针对此问题，本文提出多头矢量量化（MHVQ）方法。

VQ-VAE 模型结构图

MHVQ 将单个码本按特征维度方向均分为若干个子码本。量化时还将每个输入向量相等地切割成若干个子向量，并分别用相应子码本量化，最终拼接成输出向量。这样我们就能更加有效地提高码本利用率及表征容量，而无需增加码本参数量。例如，要使压缩率减少1倍，码字本来要增加到原码本数的平方。采用 MHVQ 后，只要把码本切分成两部分就可以实现相同的压缩率。因此，本方法能够更加有效地调节量化表征的完备性。

MHVQ 示例图

另外在对语音序列进行量化时，语音特征中蕴含的各类信息都有不同程度地丢失。这些信息在时间粒度上是不一样的，如粗粒度的音色，发音风格等，以及细粒度的音调，发音细节等。在任何时间尺度上过度压缩信息都可能使语音质量遭到一定程度的破坏。为了缓解这一问题，本工作提出了一种多时间尺度的语音建模方法。如图所示，声学特征序列通过若干个编码器将声学特征序列阶段式编码至不同时间尺度，然后再通过解码器端逐层量化，解码得到若干个具有不同时间分辨率的量化序列。这类序列集合构成的表征，即为本工作提出的多阶段多码本表征。

多阶段建模示例图

三、声学建模 MSMC-TTS

针对多阶段多码本表征 MSMCR ，本论文提出了相应的 TTS 系统，即 MSMC-TTS 系统。系统包括分析、合成和预测3个部分。在系统训练中，该系统先对分析模块进行训练。训练集中的音频经过信号处理后转化为高完备性声学特征（如本次工作中用到的 Mel-Spectrogram 特征）。利用这些声学特征对基于 MSMC-VQ-VAE 的特征分析器进行训练，训练结束时将其转化为相应的MSMCR，再对声学模型及神经声码器进行训练。解码过程中，该系统利用声学模型从文本中预测 MSMCR，然后利用神经声码器产生目标音频。

灵机语音

56 查看详情

MSMC-TTS 系统框架图

本工作还提出一种多阶段预测器来适配 MSMCR 建模。该模型是以 FastSpeech 为基础实现的，但在解码器端有所不同。该模型首先对文本进行编码，并根据预测时长信息对文本上采样。然后再将序列降采样至 MSMCR 对应的各个时间分辨率。这些序列将由不同解码器由低分辨率向高分辨率逐级解码量化。同时将低分辨率量化序列发送给下一阶段的解码器以协助预测。最后将预测所得 MSMCR 送入神经声码器中产生目标音频。

多阶段预测器结构图

对多阶段预测器进行训练与推断时，本工作选择直接在连续空间预测目标表征。这种方法能较好地顾及向量间及码字间在线性连续空间上的距离关系。训练准则除了采用常用于 TTS 建模的 MSE 损失函数外，还使用了 “triplet loss” 以迫使预测向量远离非目标码字并靠近目标码字。通过将两种损失函数项组合，该模型能够更好地预测目标码字。

四、实验效果

本工作在公开的英文单说话人数据集 Nancy (Blizzard Challenge 2011) 上进行实验。我们组织了主观意见得分测试（MOS）对 MSMC-TTS 合成效果进行评价。实验结果显示：原始录音为 4.50 分的情况下, MSMC-TTS 的得分为 4.41分，基线系统 Mel-FS（Mel-Spectrogram based FastSpeech）为 3.62 分。我们对基线系统的声码器进行调优，使之与Mel-FS输出特征相适配，结果为 3.69 分。该对比结果证明了文中所提方法对 TTS 系统的显著改进作用。

另外我们还进一步讨论了建模复杂度对于 TTS 的性能影响。由 M1 至 M3 模型参数量呈倍数下降, Mel-FS 合成效果降至 1.86 分。反观 MSMC-TTS, 参数量减少并未对合成质量造成显著的影响。当声学模型参数量为 3.12 MB 时, MOS 仍可保持 4.47 分。这既证明了以紧凑型特征为基础的 MSMC-TTS 建模复杂度需求较低，同时也展示了该方法应用于轻量级 TTS 系统的潜力。

最后我们在不同 MSMCR 基础上进行了 MSMC-TTS 比较，以探讨 MHVQ 与多阶段建模对 TTS 的影响。其中 V1 系统采用单阶段单码本的表征, V2 系统基于 V1 采用 4-head 矢量量化, V3 系统则基于 V2 采用两阶段建模。首先，V1 系统使用的表征拥有最高的特征压缩比，但在分析合成实验中表现出最低的完备性，同时在 TTS 实验中表现出最差的合成质量。经过 MHVQ 增强完备性, V2 系统在 TTS 效果上也得到了明显提升。V3 所使用的的多阶段表征虽然没有展现进一步完备性的提升，但是在 TTS 上展现出了最佳的效果，无论是韵律自然度还是音频质量均有明显改善。这进一步表明多阶段建模、多尺度信息保留在MSMC-TTS 中具有重要意义。

五、总结

该工作从研究紧凑型语音表征角度出发，提出一套新的高性能 TTS（MSMC-TTS）建模方法。该系统从音频中提取多阶段多码本表征，以代替传统声学特征。输入文本可被多阶段预测器转换为这种由多个时间分辨率不同的序列组成的语音表征，并通过神经声码器转换到目标语音信号。实验结果表明，相较于主流的基于 Mel-Spectrogram 的 FastSpeech 系统，该系统展示出了更优秀的合成质量，以及对建模复杂度更低的要求。

六、作者信息

郭浩瀚：小红书多媒体智能算法团队实习生。本硕毕业于西北工业大学，期间在 ASLP 实验室学习，师从谢磊教授。现博士就读于香港中文大学 HCCL 实验室，师从蒙美玲教授。迄今为止，作为一作，先后在 ICASSP、INTERSPEECH、SLT 国际语音会议上发表论文六篇。

解奉龙：小红书多媒体智能算法团队语音技术负责人。曾在ICASSP、INTERSPEECH、SPEECHCOM等语音领域会议及期刊发表论文十余篇，长期担任ICASSP、INTERSPEECH等主要语音会议的审稿人，主要研究方向为语音信号处理与建模。

以上就是如何用紧凑型语音表征打造高性能语音合成系统的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/563135.html

peech type 深度学习语音合成

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

魏建军发布高管合照意外曝光神秘跑车百公里不到2.5s？

上一篇 2025年11月10日 02:06:48

ChatGPT 大热，消息称苹果正“重新审视”人工智能的开发

下一篇 2025年11月10日 02:10:40

好文分享

html官方资源入口_html网站免费设计导航

html网站免费设计导航入口是https://www.htmldesignresources.com，该平台提供HTML模板、响应式示例、表单组件和CSS样式资源，支持预览、搜索、筛选与代码复制，并设有社区投稿、论坛交流及季度报告更新功能。 html网站免费设计导航入口在哪里？这是不少网页设计爱好者…

程序猿
2025年12月23日
0000
好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

HTML数据怎样进行情感分析 HTML数据情感挖掘的实现路径

答案是：从HTML中提取有效文本并进行情感分析需先清理标签获取正文，再经文本预处理、分词与去噪后，应用词典、机器学习或深度学习模型判断情感倾向，最终整合结果并可视化，实现舆情监控与评价分析。对HTML数据进行情感分析，核心在于从网页内容中提取有效文本，并在此基础上应用自然语言处理技术判断情感倾向。…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
HTML5的Speech Synthesis API有什么用？如何实现语音合成？

html5 speech synthesis api可通过javascript让网页“说话”。其核心步骤为：1. 创建speechsynthesisutterance对象并设置文本、语速、音调等属性；2. 使用speechsynthesis.speak()方法播放语音。检测浏览器支持的方法是检查wi…

程序猿
2025年12月22日 • 好文分享
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 好文分享
0000
好文分享

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
好文分享

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
好文分享

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000
好文分享

JavaScript数学计算与数值分析库

math.js适合日常复杂计算，numeric.js专精数值分析，simple-statistics用于统计分析，TensorFlow.js适用于AI与大规模数值运算。 JavaScript虽然原生支持基本的数学运算，但在处理复杂数学计算、数值分析或科学计算时，依赖第三方库能大幅提升开发效率和计算精…

程序猿
2025年12月21日
0000
好文分享

构建基于Vuetify的所见即所得（WYSIWYG）编辑器

本文探讨了如何利用vuetify的现有组件快速构建一个功能性的所见即所得（wysiwyg）编辑器。我们将重点介绍v-textarea作为内容输入区，以及v-btn-toggle和v-btn作为格式化工具栏的实现方式，并提供示例代码以帮助开发者理解其核心逻辑。同时，文章也提及了脱离框架，从零开始构建w…

程序猿
2025年12月21日
0000