跳转至

awesome-tts

语音合成的稳定性

语音合成的稳定性

语音合成的稳定性#

端到端语音合成自然度优势明显，但容易出现合成无法停止、调字、重复等合成缺陷，这在生产上是致命的。可以尝试从如下三个方面入手：

训练数据。训练语料中的音频尽量降低背景噪音；控制前后静音段和句中静音，每个句子的前后静音段尽可能一致，句中L1/L3的停顿时长尽可能裁剪统一；确保文本标注和实际音频一一对应。
模型。合成语音的正确性是语音合成的基本要求，因此语音合成的稳定性有较多的研究工作。主要思路有：
1. 增强注意力机制。由于语音合成任务具有单调性的特点，也就是输入音素一定是从左到右合成，因此可以利用该特点加入先验知识进行合成。
2. 利用时长模型取代注意力机制。
3. 增强自回归过程。比如减少训练、推断时的不匹配，知识蒸馏，教师强制等方法。
4. 采用非自回归合成方法。输入序列进来之后一把出，防止自回归生成带来的累积误差。
后处理。比如统计音库中平均音素时长，合成时统计输入音素个数，计算该句子"平均时长"，合成语音的时长超过"平均时长"的30%则认为合成没有正常停止，裁剪该合成语音。

最后更新: 2022-04-25

评论

回到页面顶部