跳转至

声学模型#

现代工业级神经网络语音合成系统主要包括三个部分:文本前端、声学模型和声码器,文本输入到文本前端中,将文本转换为音素、韵律边界等文本特征。文本特征输入到声学模型,转换为对应的声学特征。声学特征输入到声码器,重建为原始波形。

神经网络TTS的三个主要部件
神经网络TTS的三个主要部件

主要采用的声学模型包括Tacotron系列、FastSpeech系列等,目前同样出现了一些完全端到端的语音合成模型,也即是直接由字符/音素映射为波形。

Tacotron

FastSpeech

VITS


最后更新: 2022-04-25

评论

回到页面顶部