跳转至

开源项目

请见: 开源资料 2022-4-14: https://github.com/snakers4/silero-models

asr/tts 预训练模型 pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple

开源项目#

  1. coqui-ai TTS: 采用最新研究成果构建的语音合成后端工具集。
  2. ESPNet: 语音合成和识别工具集,主要集成声学模型、声码器等后端模型。
  3. fairseq: 序列到序列建模工具,包含语音识别、合成、机器翻译等模型。
  4. eSpeak NG Text-to-Speech: 共振峰生成的语音合成模型,集成超过100个语种和口音的语音合成系统,特别地,可借鉴该项目中的多语种文本前端。
  5. Epitran: 将文本转换为IPA的工具,支持众多语种。
  6. Tacotron-2: Tensorflow版本的Tacotron-2.
  7. Transformer TTS: TensorFlow 2实现的FastSpeech系列语音合成。
  8. Text-to-speech in (partially) C++ using Tacotron model + Tensorflow: 采用TensorFlow C++ API运行Tacotron模型。
  9. muzic: 微软AI音乐的开源项目,包括乐曲理解、音乐生成等多种工作。
  10. merlin: CSTR开发的统计参数语音合成工具包,需要与文本前端(比如Festival)和声码器(比如STRAIGHT或WORLD)搭配使用。

other#

  • hifi-gan-bwe:
    • 将 8/16/24 khz 音频转换为 48 khz 音频

最后更新: 2022-04-25

评论

回到页面顶部