歌唱合成
歌唱合成#
音乐是一个复杂的学科,而音乐合成几乎是另一个领域。
旋律、和声、节奏是音乐的三要素。旋律是音乐的主线,它决定了音乐的调性、曲式和进程,是音乐的灵魂。但如果只有主旋律的话,音乐就显得单调。和声用来哄托主旋律,丰富乐曲的"厚度",节奏强化风格。音乐的创作过程包括:作词作曲(Lyric/Melody),伴奏/谱曲,歌唱合成/乐音合成,混音四个基本步骤,而歌唱合成仅仅探讨第三步,利用已有的乐谱合成人类歌唱的声音。
- 歌唱合成的任务定义:
- 输入:歌词、音高(基频)、节拍(时长)
- 输出:歌唱声音
- 和TTS相比:
- 增加了额外的输入:音高、节拍(时长),输出更广范围的声调,更多变化的音素
- 更加侧重于感情和表达,而非语音本身的内容
- 困难点:
- 数据
- 数据量少
- 质量要求高(歌唱与指定音高、时长的符合程度要求高),标注困难
- 难以全面覆盖所有的音高,歌手的声音范围有限,无法覆盖所有的音高
- 容错率低
- 音调准确率要求高,简谱基本决定了基频,先验比较强,"跑调"容易听出来
- 卡拍子
- 歌唱额外的特点:比如颤音,转调等
- 数据
歌唱合成实际和语音合成十分类似,只是文本输入信息更为丰富,因此可以引入单独的模块建模音高和时长, 实际上语音合成中FastSpeech 2这些显式建模语音中音高、时长特征的声学模型,可以直接拿来作为歌唱合成的基线, 当然也出现了更好的歌唱合成技术方案,参见 - 歌唱合成:数据集的构建,以Opencpop为例、 - 歌唱合成:基于VITS的歌唱合成声学模型VISinger、 - 歌唱合成:高品质歌唱合成声码器SingGAN、 - muzic等。
论文汇总#
最后更新:
2022-04-25