小米Kaldi团队推出零样本语音合成模型ZipVoice并开源

2026-01-09/ 12 次浏览/ 资讯

小米Kaldi团队近日发布了开源零样本语音合成模型ZipVoice，该模型能够在没有目标说话人的任何语音数据情况下，利用文本直接生成高质量语音，实现跨声部的语音合成，这一技术的突破将极大地推动语音合成领域的发展，为智能语音助手、无障碍通讯等领域带来更多可能性。

小米 kaldi 团队开源零样本语音合成模型模型 zipvoice

小米Kaldi团队推出零样本语音合成模型ZipVoice并开源

近日，小米集团新一代 Kaldi 团队推出了基于 Flow Matching 框架的 ZipVoice 系列语音合成（TTS）模型，包括 ZipVoice（零样本单人语音合成模型）和 ZipVoice-Dialog（零样本对话语音合成模型）。

作为 zipformer 架构在语音生成领域的延伸与实践，ZipVoice 有效缓解了当前零样本语音合成模型普遍存在的模型参数庞大、推理速度缓慢等问题，在模型轻量化与生成效率方面实现了显著提升。而 ZipVoice-Dialog 则进一步攻克了对话式语音合成在输出稳定性与响应速度上的技术瓶颈，成功实现了高效、稳定且自然流畅的多轮语音对话生成。

目前，ZipVoice 系列模型的完整模型文件、训练与推理代码，以及包含 6.8k 小时对话语音的开源数据集 OpenDialog 已全部公开发布：https://www.php.cn/link/b21da80e55c4e85ed1270e4fafb702c2

ZipVoice 相关论文详见：https://www.php.cn/link/cf62365fe3fb1f6e44ca45af14daa212

语音合成效果演示可访问：https://www.php.cn/link/93f97410020f1aeb261aa376df54f44d

关键词：git github 小米 pdf

<< 上一篇

鸿蒙版抖音团购来袭，刷视频顺手省钱，下单巨划算！

下一篇 >>

吸尘器真的有必要购买吗？家庭实测告诉你答案，选对机型，清洁效率翻倍

小米Kaldi团队推出零样本语音合成模型ZipVoice并开源

网友留言（0 条）

发表评论

小米Kaldi团队推出零样本语音合成模型ZipVoice并开源

相关文章

网友留言（0 条）

发表评论