跳转至

awesome-tts

常见的声学特征

常见的声学特征

常见的声学特征#

在语音合成中，常用的声学特征有梅尔频谱（Mel-Spectrogram）/滤波器组（Filter-bank，Fank），梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficient，MFCC）等。

常用的声学特征

接下来重点介绍FBank和MFCC的计算过程。

FBank#

FBank的特征提取过程如下：

将信号进行预加重、分帧、加窗，然后进行短时傅里叶变换（STFT）获得对应的频谱。
求频谱的平方，即能量谱。进行梅尔滤波，即将每个滤波频带内的能量进行叠加，第 \(k\) 个滤波器输出功率谱为 \(X[k]\) 。
将每个滤波器的输出取对数，得到相应频带的对数功率谱。

\[Y_{\rm FBank}[k]={\rm log}X[k]\]

FBank特征本质上是对数功率谱，包括低频和高频信息。相比于语谱图，FBank经过了梅尔滤波，依据人耳听觉特性进行了压缩，抑制了一部分人耳无法感知的冗余信息。

MFCC#

MFCC和FBank唯一的不同就在于，获得FBank特征之后，再经过反离散余弦变换，就得到 \(L\) 个MFCC系数。在实际操作中，得到的 \(L\) 个MFCC特征值可以作为静态特征，再对这些静态特征做一阶和二阶差分，得到相应的静态特征。

最后更新: 2022-04-25

评论

回到页面顶部