跳转至

awesome-tts

歌唱合成

歌唱合成

歌唱合成#

音乐是一个复杂的学科，而音乐合成几乎是另一个领域。

旋律、和声、节奏是音乐的三要素。旋律是音乐的主线，它决定了音乐的调性、曲式和进程，是音乐的灵魂。但如果只有主旋律的话，音乐就显得单调。和声用来哄托主旋律，丰富乐曲的"厚度"，节奏强化风格。音乐的创作过程包括：作词作曲（Lyric/Melody），伴奏/谱曲，歌唱合成/乐音合成，混音四个基本步骤，而歌唱合成仅仅探讨第三步，利用已有的乐谱合成人类歌唱的声音。

歌唱合成的任务定义：
1. 输入：歌词、音高（基频）、节拍（时长）
2. 输出：歌唱声音
和TTS相比：
1. 增加了额外的输入：音高、节拍（时长），输出更广范围的声调，更多变化的音素
2. 更加侧重于感情和表达，而非语音本身的内容
困难点：
1. 数据
  1. 数据量少
  2. 质量要求高（歌唱与指定音高、时长的符合程度要求高），标注困难
  3. 难以全面覆盖所有的音高，歌手的声音范围有限，无法覆盖所有的音高
2. 容错率低
  1. 音调准确率要求高，简谱基本决定了基频，先验比较强，"跑调"容易听出来
  2. 卡拍子
3. 歌唱额外的特点：比如颤音，转调等

歌唱合成实际和语音合成十分类似，只是文本输入信息更为丰富，因此可以引入单独的模块建模音高和时长，实际上语音合成中FastSpeech 2这些显式建模语音中音高、时长特征的声学模型，可以直接拿来作为歌唱合成的基线，当然也出现了更好的歌唱合成技术方案，参见 - 歌唱合成：数据集的构建，以Opencpop为例、 - 歌唱合成：基于VITS的歌唱合成声学模型VISinger、 - 歌唱合成：高品质歌唱合成声码器SingGAN、 - muzic等。

论文汇总#

最后更新: 2022-04-25

评论

回到页面顶部