短时傅里叶变换
短时傅里叶变换#
人类听觉系统与频谱分析紧密相关,对语音信号进行频谱分析,是认识和处理语音信号的重要方法。声音从频率上可以分为纯音和复合音,纯音只包含一种频率的声音(基音),而没有倍音。复合音是除了基音之外,还包含多种倍音的声音。大部分语音都是复合音,涉及多个频率段,可以通过傅里叶变换进行频谱分析。
每个频率的信号可以用正弦波表示,采用正弦函数建模。基于欧拉公式,可以将正弦函数对应到统一的指数形式:
正弦函数具有正交性,即任意两个不同频率的正弦波乘积,在两者的公共周期内积分等于零。正交性用复指数运算表示如下:
基于正弦函数的正交性,通过相关处理可以从语音信号分离出对应不同频率的正弦信号。对于离散采样的语音信号,可以采用离散傅里叶变换(DFT)。DFT的第 \(k\) 个点计算如下:
其中, \(x[n]\) 是时域波形第 \(n\) 个采样点值, \(X[k]\) 是第 \(k\) 个傅里叶频谱值, \(N\) 是采样点序列的点数, \(K\) 是频谱系数的点数,且 \(K\geq N\) 。利用DFT获得的频谱值通常是复数形式,这是因为上式中,
则
其中,
\(N\) 个采样点序列组成的时域信号经过DFT之后,对应 \(K\) 个频率点。经DFT变换得到信号的频谱表示,其频谱幅值和相位随着频率变化而变化。
在语音信号处理中主要关注信号的频谱幅值,也称为振幅频谱/振幅谱:
能量频谱/能量谱是振幅频谱的平方:
各种声源发出的声音大多由许多不同强度、不同频率的声音组成复合音,在复合音中,不同频率成分与能量分布的关系称为声音的频谱,利用频谱图表示各频率成分与能量分布之间的关系,频谱图横轴是频率(Hz),纵轴是幅度(dB)。
通过对频域信号进行逆傅里叶变换(IDFT),可以恢复时域信号:
离散傅里叶变换(DFT)的计算复杂度为 \(O(N^2)\) ,可以采用快速傅里叶变换(FFT),简化计算复杂度,在 \(O(N\mathop{log}_2 N)\) 的时间内计算出DFT。在实际应用中,对语音信号进行分帧加窗处理,将其分割成一帧帧的离散序列,可视为短时傅里叶变换(STFT):
其中, \(K\) 是DFT后的频率点个数, \(k\) 是频率索引, \(0\leq k< K\) 。\(X[k,l]\) 建立起索引为 \(lL\) 的时域信号,与索引为 \(k\) 的频域信号之间的关系。