开源数据
更多开源数据参见: 低调奋进-开源数据汇总
中文数据集#
- 标贝中文标准女声音库csmsc: 中文单说话人语音合成数据集,质量高。
- THCHS-30: 中文多说话人数据集,原为语音识别练手级别的数据集,也可用于多说话人中文语音合成。
- Free ST Chinese Mandarin Corpus: 855个说话人,每个说话人120句话,有对应人工核对的文本,共102600句话。
- zhvoice: zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。
- 滴滴800+小时DiDiSpeech语音数据集: DiDi开源数据集,800小时,48kHz,6000说话人,存在对应文本,背景噪音干净,适用于音色转换、多说话人语音合成和语音识别,参见:https://zhuanlan.zhihu.com/p/268425880。
- SpiCE-Corpus: SpiCE是粤语和英语会话双语语料库。
- HKUST: 10小时,单说话人,采样率8kHz。
- AISHELL-1: 170小时,400个说话人,采样率16kHz。
- AISHELL-2: 1000小时,1991个说话人,采样率44.1kHz。希尔贝壳开源了不少中文语音数据集,AISHELL-2是最近开源的一个1000小时的语音数据库,禁止商用。官网上还有其它领域,比如用于语音识别的4个开源数据集。
- AISHELL-3: 85小时,218个说话人,采样率44.1kHz。
英文数据集#
- LJSpeech: 英文单说话人语音合成数据集,质量较高,25小时,采样率22.05kHz。
- VCTK: 英文多说话人语音数据集,44小时,109个说话人,每人400句话,采样率48kHz,位深16bits。
- TIMIT: 630个说话人,8个美式英语口音,每人10句话,采样率16kHz,位深16bits。这里是具体下载地址,下载方法:首先下载种子,然后执行: ctorrent *.torrent
- CMU ARCTIC: 7小时,7个说话人,采样率16kHz。语音质量较高,可以用于英文多说话人的训练。
- Blizzard-2011: 16.6小时,单说话人,采样率16kHz。可以从The Blizzard Challenge查找该比赛的相关数据,从SynSIG查找该比赛的相关信息。
- Blizzard-2013: 319小时,单说话人,采样率44.1kHz。
- LibriSpeech: 982小时,2484个说话人,采样率16kHz。OpenSLR搜集了语音合成和识别常用的语料。
- LibriTTS: 586小时,2456个说话人,采样率24kHz。
- VCC 2018: 1小时,12个说话人,采样率22.05kHz。类似的,可以从The Voice Conversion Challenge 2016获取2016年的VC数据。
- HiFi-TTS: 300小时,11个说话人,采样率44.1kHz。
- TED-LIUM: 118小时,666个说话人。
- CALLHOME: 60小时,120个说话人,采样率8kHz。
- RyanSpeech: 10小时,单说话人,采样率44.1kHz。交互式语音合成语料。
情感数据集#
其它数据集#
- Opencpop: 高质量歌唱合成数据集。
- 好未来开源数据集: 目前主要开源了3个大的语音数据集,分别是语音识别数据集,语音情感数据集和中英文混合语音数据集,都是多说话人教师授课音频。
- JSUT: 日语,10小时,单说话人,采样率48kHz。
- KazakhTTS: 哈萨克语,93小时,2个说话人,采样率44.1/48kHz。
- Ruslan: 俄语,31小时,单说话人,采样率44.1kHz。
- HUI-Audio-Corpus: 德语,326小时,122个说话人,采样率44.1kHz。
- M-AILABS: 多语种,1000小时,采样率16kHz。
- India Corpus: 多语种,39小时,253个说话人,采样率48kHz。
- MLS: 多语种,5.1万小时,6千个说话人,采样率16kHz。
- CommonVoice: 多语种,2500小时,5万个说话人,采样率48kHz。
- CSS10: 十个语种的单说话人语音数据的集合,140小时,采样率22.05kHz。
- OpenSLR: OpenSLR是一个专门托管语音和语言资源的网站,例如语音识别训练语料库和与语音识别相关的软件。迄今为止,已经有100+语音相关的语料。
- DataShare: 爱丁堡大学维护的数据集汇总,包含了语音、图像等多个领域的数据集和软件,语音数据集中包括了语音合成、增强、说话人识别、语音转换等方面的内容。
- Speech in Microsoft Research Open Data: 微软开源数据搜索引擎中关于语音的相关数据集。
- voice datasets: Github上较为全面的开源语音和音乐数据集列表,包括语音合成、语音识别、情感语音数据集、语音分离、歌唱等语料,找不到语料可以到这里看看。
- Open Speech Corpora: 开放式语音数据库列表,特点是包含多个语种的语料。
- EMIME: 包含一些TTS和ASR模型,以及一个中文/英语,法语/英语,德语/英语双语数据集。
- Celebrity Audio Extraction: 中国名人数据集,包含中国名人语音和图像数据。
最后更新:
2022-04-25