跳转至

常见的声学特征

常见的声学特征#

在语音合成中,常用的声学特征有梅尔频谱(Mel-Spectrogram)/滤波器组(Filter-bank,Fank),梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等。

常用的声学特征
常用的声学特征

接下来重点介绍FBank和MFCC的计算过程。

FBank#

FBank的特征提取过程如下:

  1. 将信号进行预加重、分帧、加窗,然后进行短时傅里叶变换(STFT)获得对应的频谱

  2. 求频谱的平方,即能量谱。进行梅尔滤波,即将每个滤波频带内的能量进行叠加,第 \(k\) 个滤波器输出功率谱为 \(X[k]\)

  3. 将每个滤波器的输出取对数,得到相应频带的对数功率谱。

    \[Y_{\rm FBank}[k]={\rm log}X[k]\]

FBank特征本质上是对数功率谱,包括低频和高频信息。相比于语谱图,FBank经过了梅尔滤波,依据人耳听觉特性进行了压缩,抑制了一部分人耳无法感知的冗余信息。

MFCC#

MFCC和FBank唯一的不同就在于,获得FBank特征之后,再经过反离散余弦变换,就得到 \(L\) 个MFCC系数。在实际操作中,得到的 \(L\) 个MFCC特征值可以作为静态特征,再对这些静态特征做一阶和二阶差分,得到相应的静态特征。


最后更新: 2022-04-25

评论

回到页面顶部