倒谱分析

倒谱分析#

语音信号的产生模型包括发生源（Source）和滤波器（Filter）。人在发声时，肺部空气受到挤压形成气流，气流通过声门（声带）振动产生声门源激励 \(e[n]\) 。对于浊音，激励 \(e[n]\) 是以基音周期重复的单位冲激；对于清音， \(e[n]\) 是平稳白噪声。该激励信号 \(e[n]\) 经过咽喉、口腔形成声道的共振和调制，特别是舌头能够改变声道的容积，从而改变发音，形成不同频率的声音。气流、声门可以等效为一个激励源，声道等效为一个时变滤波器，语音信号 \(x[n]\) 可以被看成激励信号 \(e[n]\) 与时变滤波器的单位响应 \(v[n]\) 的卷积：

\[x[n]=e[n]*v[n]\]

已知语音信号 \(x[n]\) ，待求出上式中参与卷积的各个信号分量，也就是解卷积处理。除了线性预测方法外，还可以采用倒谱分析实现解卷积处理。倒谱分析，又称为同态滤波，采用时频变换，得到对数功率谱，再进行逆变换，分析出倒谱域的倒谱系数。

同态滤波的处理过程如下：

傅里叶变换。将时域的卷积信号转换为频域的乘积信号： \(\({\rm DFT}(x[n])=X[z]=E[z]V[z]\)\)
对数运算。将乘积信号转换为加性信号： \(\({\rm log} X[z]={\rm log}E[z]+{\rm log}V[z]=\hat{E}[z]+\hat{V}[z]=\hat{X}[z]\)\)
傅里叶反变换。得到时域的语音信号倒谱。 \(\(Z^{-1}(\hat{X}[z])=Z^{-1}(\hat{E}[z]+\hat{V}[z])=\hat{e}[n]+\hat{v}[z]\approx \hat{x}[n]\)\)

在实际应用中，考虑到离散余弦变换（DCT）具有最优的去相关性能，能够将信号能量集中到极少数的变换系数上，特别是能够将大多数的自然信号（包括声音和图像）的能量都集中在离散余弦变换后的低频部分。一般采用DCT反变换代替傅里叶反变换，上式可以改写成：

\[\hat{c}[m]=\sum_{k=1}^N{\rm log}X[k]{\rm cos}(\frac{\pi (k-0.5)m}{N}),\quad m=1,2,...,M\]

其中，\(X[k]\)是DFT变换系数， \(N\) 是DFT系数的个数， \(M\) 是DCT变换的个数。

此时， \(\hat{x}[n]\) 是复倒谱信号，可采用逆运算，恢复出语音信号，但DCT不可逆，从倒谱信号 \(\hat{c}[m]\) 不可还原出语音 \(x[n]\) 。

最后更新: 2022-04-25

倒谱分析

倒谱分析#

评论