跳转至

倒谱分析

倒谱分析#

语音信号的产生模型包括发生源(Source)和滤波器(Filter)。人在发声时,肺部空气受到挤压形成气流,气流通过声门(声带)振动产生声门源激励 \(e[n]\) 。对于浊音,激励 \(e[n]\) 是以基音周期重复的单位冲激;对于清音, \(e[n]\) 是平稳白噪声。该激励信号 \(e[n]\) 经过咽喉、口腔形成声道的共振和调制,特别是舌头能够改变声道的容积,从而改变发音,形成不同频率的声音。气流、声门可以等效为一个激励源,声道等效为一个时变滤波器,语音信号 \(x[n]\) 可以被看成激励信号 \(e[n]\) 与时变滤波器的单位响应 \(v[n]\) 的卷积:

\[x[n]=e[n]*v[n]\]

已知语音信号 \(x[n]\) ,待求出上式中参与卷积的各个信号分量,也就是解卷积处理。除了线性预测方法外,还可以采用倒谱分析实现解卷积处理。倒谱分析,又称为同态滤波,采用时频变换,得到对数功率谱,再进行逆变换,分析出倒谱域的倒谱系数。

同态滤波的处理过程如下:

  1. 傅里叶变换。将时域的卷积信号转换为频域的乘积信号: \(\({\rm DFT}(x[n])=X[z]=E[z]V[z]\)\)

  2. 对数运算。将乘积信号转换为加性信号: \(\({\rm log} X[z]={\rm log}E[z]+{\rm log}V[z]=\hat{E}[z]+\hat{V}[z]=\hat{X}[z]\)\)

  3. 傅里叶反变换。得到时域的语音信号倒谱\(\(Z^{-1}(\hat{X}[z])=Z^{-1}(\hat{E}[z]+\hat{V}[z])=\hat{e}[n]+\hat{v}[z]\approx \hat{x}[n]\)\)

在实际应用中,考虑到离散余弦变换(DCT)具有最优的去相关性能,能够将信号能量集中到极少数的变换系数上,特别是能够将大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分。一般采用DCT反变换代替傅里叶反变换,上式可以改写成:

\[\hat{c}[m]=\sum_{k=1}^N{\rm log}X[k]{\rm cos}(\frac{\pi (k-0.5)m}{N}),\quad m=1,2,...,M\]

其中,\(X[k]\)是DFT变换系数, \(N\) 是DFT系数的个数, \(M\) 是DCT变换的个数。

此时, \(\hat{x}[n]\) 是复倒谱信号,可采用逆运算,恢复出语音信号,但DCT不可逆,从倒谱信号 \(\hat{c}[m]\) 不可还原出语音 \(x[n]\)


最后更新: 2022-04-25

评论

回到页面顶部