本次语音合成领域的最新研究工作,Bridge-TTS,凭借其基于薛定谔桥的生成框架,实现了「数据到数据」的生成过程,首次将语音合成的先验信息由噪声修改为干净数据,由分布修改为确定性表征。该方法的主要架构如上图所示,输入文本首先经由文本编码器提取出生成目标(mel-spectrogram, 梅尔谱)的隐空间表征。此后,与扩散模型将此信息并入噪声分布或用作条件信息不同,Bridge-TTS 的方法支持直接将其作为先验信息,并支持通过随机或确定性采样的方式,高质量、快速地生成目标。 工作成果在验证语音合成质量的标准数据集 LJ-Speech 上,研究团队将 Bridge-TTS 与 9 项高质量的语音合成系统和扩散模型的加速采样方法进行了对比。如下所示,该方法在样本质量上(1000 步、50 步采样)击败了基于扩散模型的高质量 TTS 系统 [2,3,7],并在采样速度上,在无需任何后处理如额外模型蒸馏的条件下,超过了众多加速方法,如残差预测、渐进式蒸馏、以及最新的一致性蒸馏等工作 [5,6,7]。以下是 Bridge-TTS 与基于扩散模型方法的生成效果示例,更多生成样本对比可访问项目网站:https://bridge-tts.github.io/1000 步合成效果对比输入文本:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」4 步合成效果对比输入文本:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,」 2 步合成效果对比输入文本:「The prison population fluctuated a great deal,」下面展示了 Bridge-TTS 一个在 2 步和 4 步的一个确定性合成(ODE sampling)案例。在 4 步合成中,该方法相较于扩散模型显著合成了更多样本细节,并没有噪声残留的问题。在 2 步合成中,该方法展示出了完全纯净的采样轨迹,并在每一步采样完善了更多的生成细节。在频域中,更多的生成样本如下所示,在 1000 步合成中,该方法相较于扩散模型生成了更高质量的梅尔谱,当采样步数降到 50 步时,扩散模型已经牺牲了部分采样细节,而基于薛定谔桥的该方法仍然保持着高质量的生成效果。在 4 步和 2 步合成中,该方法不需蒸馏、多阶段训练、和对抗损失函数,仍然实现了高质量的生成效果。
郑凯文是清华大学在读的二年级硕士生,主要研究方向是深度生成模型的理论与算法,及其在图像、音频和 3D 生成中的应用。此前在 ICML/NeurIPS/CVPR 等顶级会议发表多篇论文,涉及了扩散模型中的流匹配和指数积分器等技术。参考文献:[1] Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, and Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv preprint arXiv:2312.03491, 2023.[2] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.[3] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, and Zhou Zhao. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism. In AAAI, 2022.[4] Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, and Tie-Yan Liu. PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior. In ICLR, 2022.[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, and Yi Ren. ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech. In ACM Multimedia, 2022.[6] Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, and Yike Guo. CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model. In ACM Multimedia, 2023.[7] Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech. arXiv preprint arXiv:2212.14518, 2022.[8] Yuyang Shi, Valentin De Bortoli, Andrew Campbell, and Arnaud Doucet. Diffusion Schrödinger Bridge Matching. In NeurIPS 2023.[9] Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, and Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.[10] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow Matching for Generative Modeling. In ICLR, 2023.[11] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs. In ICML, 2023.[12] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.[13] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics. In NeurIPS, 2023.
惊人发现:大模型在知识推演上存在严重缺陷。 灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗…