语音合成的稳定性
语音合成的稳定性#
端到端语音合成自然度优势明显,但容易出现合成无法停止、调字、重复等合成缺陷,这在生产上是致命的。可以尝试从如下三个方面入手:
-
训练数据。训练语料中的音频尽量降低背景噪音;控制前后静音段和句中静音,每个句子的前后静音段尽可能一致,句中L1/L3的停顿时长尽可能裁剪统一;确保文本标注和实际音频一一对应。
-
模型。合成语音的正确性是语音合成的基本要求,因此语音合成的稳定性有较多的研究工作。主要思路有:
-
增强注意力机制。由于语音合成任务具有单调性的特点,也就是输入音素一定是从左到右合成,因此可以利用该特点加入先验知识进行合成。
-
利用时长模型取代注意力机制。
-
增强自回归过程。比如减少训练、推断时的不匹配,知识蒸馏,教师强制等方法。
-
采用非自回归合成方法。输入序列进来之后一把出,防止自回归生成带来的累积误差。
-
-
后处理。比如统计音库中平均音素时长,合成时统计输入音素个数,计算该句子"平均时长",合成语音的时长超过"平均时长"的30%则认为合成没有正常停止,裁剪该合成语音。
最后更新:
2022-04-25