
小红书团队近日开源了名为 FireRedTTS2 的全新语音合成系统,专为多说话人场景下的长篇流式对话生成设计,致力于为播客内容创作与智能聊天机器人提供更加自然、连贯的语音输出体验。
主要特性包括:
支持长文本多角色对话:可生成最长 3 分钟的四人对话内容,并具备良好的扩展性,通过增加训练数据即可支持更长时间的对话及更多说话人。多语言能力强大:系统覆盖英语、中文、日语、韩语、法语、德语和俄语等多种语言,能够在跨语言交流或代码切换语境下实现零样本语音克隆,无需额外参考音频即可生成目标音色的语音。极致低延迟表现:依托 12.5Hz 的流式语音标记器与双 Transformer 架构,支持文本与语音标记的交错生成,实现逐句实时合成。首包响应延迟低至 140ms,在保证流畅性的同时维持高保真音质。合成稳定性优异:在独白与多人对话测试中均表现出高度的语音相似度以及较低的词错误率(WER)和字符错误率(CER),确保信息准确传达。支持随机音色生成:可用于构建多样化的语音交互训练数据集,提升语音识别与对话系统的鲁棒性。
目前,项目团队已公开技术论文与演示页面,并预告将于 10 月发布升级版多语言基础模型、完整的微调代码与使用教程,以及端到端的 text-to-blog 生成流程。

该项目代码已完整开源,附带详细的安装指南和使用示例,依赖 PyTorch 2.7.1 版本,模型权重已上传至 Hugging Face 平台,便于开发者快速集成与部署。
https://www.php.cn/link/23f38cc38c9291fec95487293bbed704
https://www.php.cn/link/100a527975525b513a983359a3c51378
https://www.php.cn/link/51540863fba76ac6cb10eded0ff9ef7b
源码地址:点击下载
以上就是小红书开源 FireRedTTS2,专为长对话设计的语音生成系统的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/111512.html
微信扫一扫
支付宝扫一扫