跳转至

歌唱合成

歌唱合成#

音乐是一个复杂的学科,而音乐合成几乎是另一个领域。

旋律、和声、节奏是音乐的三要素。旋律是音乐的主线,它决定了音乐的调性、曲式和进程,是音乐的灵魂。但如果只有主旋律的话,音乐就显得单调。和声用来哄托主旋律,丰富乐曲的"厚度",节奏强化风格。音乐的创作过程包括:作词作曲(Lyric/Melody),伴奏/谱曲,歌唱合成/乐音合成,混音四个基本步骤,而歌唱合成仅仅探讨第三步,利用已有的乐谱合成人类歌唱的声音。

  1. 歌唱合成的任务定义:
    1. 输入:歌词、音高(基频)、节拍(时长)
    2. 输出:歌唱声音
  2. 和TTS相比:
    1. 增加了额外的输入:音高、节拍(时长),输出更广范围的声调,更多变化的音素
    2. 更加侧重于感情和表达,而非语音本身的内容
  3. 困难点:
    1. 数据
      1. 数据量少
      2. 质量要求高(歌唱与指定音高、时长的符合程度要求高),标注困难
      3. 难以全面覆盖所有的音高,歌手的声音范围有限,无法覆盖所有的音高
    2. 容错率低
      1. 音调准确率要求高,简谱基本决定了基频,先验比较强,"跑调"容易听出来
      2. 卡拍子
    3. 歌唱额外的特点:比如颤音,转调等

歌唱合成实际和语音合成十分类似,只是文本输入信息更为丰富,因此可以引入单独的模块建模音高和时长, 实际上语音合成中FastSpeech 2这些显式建模语音中音高、时长特征的声学模型,可以直接拿来作为歌唱合成的基线, 当然也出现了更好的歌唱合成技术方案,参见 - 歌唱合成:数据集的构建,以Opencpop为例、 - 歌唱合成:基于VITS的歌唱合成声学模型VISinger、 - 歌唱合成:高品质歌唱合成声码器SingGAN、 - muzic等。

论文汇总#


最后更新: 2022-04-25

评论

回到页面顶部