预处理

预处理#

包括预加重、分帧和加窗。

预加重#

语音经过说话人的口唇辐射发出，受到唇端辐射抑制，高频能量明显降低。一般来说，当语音信号的频率提高两倍时，其功率谱的幅度下降约6dB，即语音信号的高频部分受到的抑制影响较大。在进行语音信号的分析和处理时，可采用预加重（pre-emphasis）的方法补偿语音信号高频部分的振幅，在傅里叶变换操作中避免数值问题，本质是施加高通滤波器。假设输入信号第 \(n\) 个采样点为 \(x[n]\) ，则预加重公式如下：

\[x'[n]=x[n]-a\times x[n-1]\]

其中， \(a\) 是预加重系数，一般取 \(a=0.97\) 或 \(a=0.95\) 。

分帧#

语音信号是非平稳信号，考虑到发浊音时声带有规律振动，即基音频率在短时范围内时相对固定的，因此可以认为语音信号具有短时平稳特性，一般认为10ms 50ms的语音信号片段是一个准稳态过程。短时分析采用分帧方式，一般每帧帧长为20ms或50ms。假设语音采样率为16kHz，帧长为20ms，则一帧有 \(16000\times 0.02=320\) 个样本点。

相邻两帧之间的基音有可能发生变化，如两个音节之间，或者声母向韵母过渡。为确保声学特征参数的平滑性，一般采用重叠取帧的方式，即相邻帧之间存在重叠部分。一般来说，帧长和帧移的比例为 \(1:4\) 或 \(1:5\) 。

加窗#

分帧相当于对语音信号加矩形窗，矩形窗在时域上对信号进行截断，在边界处存在多个旁瓣，会发生频谱泄露。为了减少频谱泄露，通常对分帧之后的信号进行其它形式的加窗操作。常用的窗函数有：汉明（Hamming）窗、汉宁（Hanning）窗和布莱克曼（Blackman）窗等。

汉明窗的窗函数为：

\[W_{ham}[n]=0.54-0.46\mathop{cos}(\frac{2\pi n}{N}-1)\]

其中， \(0\leq n\leq N-1\) ，\(N\) 是窗的长度。

汉宁窗的窗函数为：

\[W_{han}[n]=0.5[1-\mathop{cos}(\frac{2\pi n}{N}-1)]\]

其中， \(0\leq n\leq N-1\) ， \(N\) 是窗的长度。

最后更新: 2022-04-25

预处理

预处理#

预加重#

分帧#

加窗#

评论