跳转至

语音合成的稳定性

语音合成的稳定性#

端到端语音合成自然度优势明显,但容易出现合成无法停止、调字、重复等合成缺陷,这在生产上是致命的。可以尝试从如下三个方面入手:

  1. 训练数据。训练语料中的音频尽量降低背景噪音;控制前后静音段和句中静音,每个句子的前后静音段尽可能一致,句中L1/L3的停顿时长尽可能裁剪统一;确保文本标注和实际音频一一对应。

  2. 模型。合成语音的正确性是语音合成的基本要求,因此语音合成的稳定性有较多的研究工作。主要思路有:

    1. 增强注意力机制。由于语音合成任务具有单调性的特点,也就是输入音素一定是从左到右合成,因此可以利用该特点加入先验知识进行合成。

    2. 利用时长模型取代注意力机制。

    3. 增强自回归过程。比如减少训练、推断时的不匹配,知识蒸馏,教师强制等方法。

    4. 采用非自回归合成方法。输入序列进来之后一把出,防止自回归生成带来的累积误差。

  3. 后处理。比如统计音库中平均音素时长,合成时统计输入音素个数,计算该句子"平均时长",合成语音的时长超过"平均时长"的30%则认为合成没有正常停止,裁剪该合成语音。


最后更新: 2022-04-25

评论

回到页面顶部