开源项目

Info

coqui-ai TTS: 采用最新研究成果构建的语音合成后端工具集。
ESPNet: 语音合成和识别工具集，主要集成声学模型、声码器等后端模型。
fairseq: 序列到序列建模工具，包含语音识别、合成、机器翻译等模型。
eSpeak NG Text-to-Speech: 共振峰生成的语音合成模型，集成超过100个语种和口音的语音合成系统，特别地，可借鉴该项目中的多语种文本前端。
Epitran: 将文本转换为IPA的工具，支持众多语种。
Tacotron-2: Tensorflow版本的Tacotron-2.
Transformer TTS: TensorFlow 2实现的FastSpeech系列语音合成。
Text-to-speech in (partially) C++ using Tacotron model + Tensorflow: 采用TensorFlow C++ API运行Tacotron模型。
muzic: 微软AI音乐的开源项目，包括乐曲理解、音乐生成等多种工作。
merlin: CSTR开发的统计参数语音合成工具包，需要与文本前端（比如Festival）和声码器（比如STRAIGHT或WORLD）搭配使用。

最后更新: 2022-04-25

评论