开源数据

更多开源数据参见: 低调奋进-开源数据汇总

中文数据集#

标贝中文标准女声音库csmsc: 中文单说话人语音合成数据集，质量高。
THCHS-30: 中文多说话人数据集，原为语音识别练手级别的数据集，也可用于多说话人中文语音合成。
Free ST Chinese Mandarin Corpus: 855个说话人，每个说话人120句话，有对应人工核对的文本，共102600句话。
zhvoice: zhvoice语料由8个开源数据集，经过降噪和去除静音处理而成，说话人约3200个，音频约900小时，文本约113万条，共有约1300万字。
滴滴800+小时DiDiSpeech语音数据集: DiDi开源数据集，800小时，48kHz，6000说话人，存在对应文本，背景噪音干净，适用于音色转换、多说话人语音合成和语音识别，参见：https://zhuanlan.zhihu.com/p/268425880。
SpiCE-Corpus: SpiCE是粤语和英语会话双语语料库。
HKUST: 10小时，单说话人，采样率8kHz。
AISHELL-1: 170小时，400个说话人，采样率16kHz。
AISHELL-2: 1000小时，1991个说话人，采样率44.1kHz。希尔贝壳开源了不少中文语音数据集，AISHELL-2是最近开源的一个1000小时的语音数据库，禁止商用。官网上还有其它领域，比如用于语音识别的4个开源数据集。
AISHELL-3: 85小时，218个说话人，采样率44.1kHz。

英文数据集#

LJSpeech: 英文单说话人语音合成数据集，质量较高，25小时，采样率22.05kHz。
VCTK: 英文多说话人语音数据集，44小时，109个说话人，每人400句话，采样率48kHz，位深16bits。
TIMIT: 630个说话人，8个美式英语口音，每人10句话，采样率16kHz，位深16bits。这里是具体下载地址，下载方法：首先下载种子，然后执行： ctorrent *.torrent
CMU ARCTIC: 7小时，7个说话人，采样率16kHz。语音质量较高，可以用于英文多说话人的训练。
Blizzard-2011: 16.6小时，单说话人，采样率16kHz。可以从The Blizzard Challenge查找该比赛的相关数据，从SynSIG查找该比赛的相关信息。
Blizzard-2013: 319小时，单说话人，采样率44.1kHz。
LibriSpeech: 982小时，2484个说话人，采样率16kHz。OpenSLR搜集了语音合成和识别常用的语料。
LibriTTS: 586小时，2456个说话人，采样率24kHz。
VCC 2018: 1小时，12个说话人，采样率22.05kHz。类似的，可以从The Voice Conversion Challenge 2016获取2016年的VC数据。
HiFi-TTS: 300小时，11个说话人，采样率44.1kHz。
TED-LIUM: 118小时，666个说话人。
CALLHOME: 60小时，120个说话人，采样率8kHz。
RyanSpeech: 10小时，单说话人，采样率44.1kHz。交互式语音合成语料。

情感数据集#

ESD: 用于语音合成和语音转换的情感数据集。
情感数据和实验总结: 实际是情感语音合成的实验总结，包含了一些情感数据集的总结。

其它数据集#

Opencpop: 高质量歌唱合成数据集。
好未来开源数据集: 目前主要开源了3个大的语音数据集，分别是语音识别数据集，语音情感数据集和中英文混合语音数据集，都是多说话人教师授课音频。
JSUT: 日语，10小时，单说话人，采样率48kHz。
KazakhTTS: 哈萨克语，93小时，2个说话人，采样率44.1/48kHz。
Ruslan: 俄语，31小时，单说话人，采样率44.1kHz。
HUI-Audio-Corpus: 德语，326小时，122个说话人，采样率44.1kHz。
M-AILABS: 多语种，1000小时，采样率16kHz。
India Corpus: 多语种，39小时，253个说话人，采样率48kHz。
MLS: 多语种，5.1万小时，6千个说话人，采样率16kHz。
CommonVoice: 多语种，2500小时，5万个说话人，采样率48kHz。
CSS10: 十个语种的单说话人语音数据的集合，140小时，采样率22.05kHz。
OpenSLR: OpenSLR是一个专门托管语音和语言资源的网站，例如语音识别训练语料库和与语音识别相关的软件。迄今为止，已经有100+语音相关的语料。
DataShare: 爱丁堡大学维护的数据集汇总，包含了语音、图像等多个领域的数据集和软件，语音数据集中包括了语音合成、增强、说话人识别、语音转换等方面的内容。
Speech in Microsoft Research Open Data: 微软开源数据搜索引擎中关于语音的相关数据集。
voice datasets: Github上较为全面的开源语音和音乐数据集列表，包括语音合成、语音识别、情感语音数据集、语音分离、歌唱等语料，找不到语料可以到这里看看。
Open Speech Corpora: 开放式语音数据库列表，特点是包含多个语种的语料。
EMIME: 包含一些TTS和ASR模型，以及一个中文/英语，法语/英语，德语/英语双语数据集。
Celebrity Audio Extraction: 中国名人数据集，包含中国名人语音和图像数据。

最后更新: 2022-04-25

开源数据

中文数据集#

英文数据集#

情感数据集#

其它数据集#

评论