跳转至

预处理

预处理#

包括预加重、分帧和加窗。

预加重#

语音经过说话人的口唇辐射发出,受到唇端辐射抑制,高频能量明显降低。一般来说,当语音信号的频率提高两倍时,其功率谱的幅度下降约6dB,即语音信号的高频部分受到的抑制影响较大。在进行语音信号的分析和处理时,可采用预加重(pre-emphasis)的方法补偿语音信号高频部分的振幅,在傅里叶变换操作中避免数值问题,本质是施加高通滤波器。假设输入信号第 \(n\) 个采样点为 \(x[n]\) ,则预加重公式如下:

\[x'[n]=x[n]-a\times x[n-1]\]

其中, \(a\) 是预加重系数,一般取 \(a=0.97\)\(a=0.95\)

分帧#

语音信号是非平稳信号,考虑到发浊音时声带有规律振动,即基音频率在短时范围内时相对固定的,因此可以认为语音信号具有短时平稳特性,一般认为10ms 50ms的语音信号片段是一个准稳态过程。短时分析采用分帧方式,一般每帧帧长为20ms或50ms。假设语音采样率为16kHz,帧长为20ms,则一帧有 \(16000\times 0.02=320\) 个样本点。

相邻两帧之间的基音有可能发生变化,如两个音节之间,或者声母向韵母过渡。为确保声学特征参数的平滑性,一般采用重叠取帧的方式,即相邻帧之间存在重叠部分。一般来说,帧长和帧移的比例为 \(1:4\)\(1:5\)

加窗#

分帧相当于对语音信号加矩形窗,矩形窗在时域上对信号进行截断,在边界处存在多个旁瓣,会发生频谱泄露。为了减少频谱泄露,通常对分帧之后的信号进行其它形式的加窗操作。常用的窗函数有:汉明(Hamming)窗、汉宁(Hanning)窗和布莱克曼(Blackman)窗等。

汉明窗的窗函数为:

\[W_{ham}[n]=0.54-0.46\mathop{cos}(\frac{2\pi n}{N}-1)\]

其中, \(0\leq n\leq N-1\)\(N\) 是窗的长度。

汉宁窗的窗函数为:

\[W_{han}[n]=0.5[1-\mathop{cos}(\frac{2\pi n}{N}-1)]\]

其中, \(0\leq n\leq N-1\)\(N\) 是窗的长度。


最后更新: 2022-04-25

评论

回到页面顶部