开源项目
Info
请见: 开源资料 2022-4-14: https://github.com/snakers4/silero-models
asr/tts 预训练模型 pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
开源项目#
- coqui-ai TTS: 采用最新研究成果构建的语音合成后端工具集。
- ESPNet: 语音合成和识别工具集,主要集成声学模型、声码器等后端模型。
- fairseq: 序列到序列建模工具,包含语音识别、合成、机器翻译等模型。
- eSpeak NG Text-to-Speech: 共振峰生成的语音合成模型,集成超过100个语种和口音的语音合成系统,特别地,可借鉴该项目中的多语种文本前端。
- Epitran: 将文本转换为IPA的工具,支持众多语种。
- Tacotron-2: Tensorflow版本的Tacotron-2.
- Transformer TTS: TensorFlow 2实现的FastSpeech系列语音合成。
- Text-to-speech in (partially) C++ using Tacotron model + Tensorflow: 采用TensorFlow C++ API运行Tacotron模型。
- muzic: 微软AI音乐的开源项目,包括乐曲理解、音乐生成等多种工作。
- merlin: CSTR开发的统计参数语音合成工具包,需要与文本前端(比如Festival)和声码器(比如STRAIGHT或WORLD)搭配使用。
other#
- hifi-gan-bwe:
- 将 8/16/24 khz 音频转换为 48 khz 音频
最后更新:
2022-04-25