常见的声学特征
常见的声学特征#
在语音合成中,常用的声学特征有梅尔频谱(Mel-Spectrogram)/滤波器组(Filter-bank,Fank),梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等。
接下来重点介绍FBank和MFCC的计算过程。
FBank#
FBank的特征提取过程如下:
-
将信号进行预加重、分帧、加窗,然后进行短时傅里叶变换(STFT)获得对应的
频谱
。 -
求频谱的平方,即
能量谱
。进行梅尔滤波,即将每个滤波频带内的能量进行叠加,第 \(k\) 个滤波器输出功率谱为 \(X[k]\) 。 -
将每个滤波器的输出取对数,得到相应频带的对数功率谱。
\[Y_{\rm FBank}[k]={\rm log}X[k]\]
FBank特征本质上是对数功率谱,包括低频和高频信息。相比于语谱图,FBank经过了梅尔滤波,依据人耳听觉特性进行了压缩,抑制了一部分人耳无法感知的冗余信息。
MFCC#
MFCC和FBank唯一的不同就在于,获得FBank特征之后,再经过反离散余弦变换,就得到
\(L\) 个MFCC系数。在实际操作中,得到的 \(L\)
个MFCC特征值可以作为静态特征
,再对这些静态特征做一阶和二阶差分,得到相应的静态特征。
最后更新:
2022-04-25