2000_wideband extension of telephone speech using a hidden Markov model (2)

日期：2022-02-12 栏目：程序人生浏览：次

　　对于每个信号帧，从bandlimited(带限)信号中提取一个$N$维特征向量$x(m)$。该向量由8个倒谱系数$c_1...c_8$，归一化帧能量$E_n$和[5]中定义的梯度指数$d_n$组成

$$公式2：
d_{n}=\frac{\sum_{k=2}^{K} \Delta \psi(k)\left|s_{n b}(k)-s_{n b}(k-1)\right|}{\sqrt{\frac{1}{K} \sum_{k=1}^{K} s_{n b}^{2}(k)}}
$$

式中$K$为每帧采样数，变量$\phi(k)$表示梯度$c_{nb}(k)-s_{nb}(k-1)$的标记，即$\psi (k)\in \{-1,1\}$，$\triangle \psi(k)=\frac{1}{2}|\psi(k)-\psi(k-1)|$。

　　倒谱系数包含窄带信号的频谱包络的形状信息，而其他两个量取决于语音激励的性质。此外，以上十个主要特征随时间的导数都包含在特征向量中，使得该向量$x(m)$的维数为$N = 20$。

3.2 统计模型

　　对于隐马尔可夫模型的每个可能状态$S_i$，语音产生过程产生的特征$x$表现出不同的统计特性。为了描述这些性质，我们使用了由以下三部分组成的统计模型。

3.2.1 观察概率$p(x|S_i)$

由于特征向量x的维度较高，这些概率密度函数(probability density function，pdf）$p(x|S_i)$由高斯混合模型（GMMS）建模：每个pdf被近似为$L$个高斯pdf的和。

$$公式3：
p\left(\boldsymbol{x} | S_{i}\right) \approx \sum_{l=1}^{L} P_{i l} \mathcal{N}\left(\boldsymbol{x} ; \mu_{i l}, \Sigma_{i l}\right)
$$

在这个方程中，$N(x;\mu_{il},\sum_{il})$表示具有平均矢量$\mu_{il}$和方差矩阵$\sum_{il}$的GMM的第$l$个N维高斯分布。每个高斯分布都由一个系数$P_{il}$加权，$\sum_{l=1}^LP_{il}=1$。

　　GMMs的训练，即$P_{il}$、$\mu_{il}$和$\sum_{il}$，可以用期望最大化（EM）算法（例如[ 6 ]）来进行。这里用LBG算法[4]对训练数据进行聚类来确定。

　　对于隐马尔可夫模型的每个状态，必须使用完整训练材料的子集来训练一个不同的GMM，对于该GMM，其真实状态等于当前训练的状态。

3.2.2 初始状态概率$\pi_i=P(S_i)$

标量值$\pi_i$描述了HMM驻留在状态$S_i$中而不包含特征向量$x$或先后状态的概率。

　　该概率可以通过计算训练材料的真实状态序列和评估状态$S_i$的出现次数与训练集中的语音帧总数之间的比率来估计。通过码本存储所得到的概率值，使得实际的带宽扩展算法以后可以通过表查找来访问这些先验状态概率。

3.2.3 转移概率$a_{ij}=P(S_i(m+1)|S_j(m))$

　　变量$a_{ij}$描述了从状态$S_j$转换到状态$S_i$的概率。作为初始状态概率$\pi_i$，可以将转移概率存储在现在为二维的表中。在训练过程中，在了解了真实状态序列的情况下，将该表中的每个条目估计为从$S_j$到$S_i$的特定转换的发生次数与$S_j$状态的总发生次数之间的比率。

3.3 估计宽带AR系数

　　码本搜索算法的目标是计算宽带AR系数的估计值$\hat{C}$，使到真实系数C的距离最小。

　　对于估计规则的推导，将辅助变量$\alpha_i(m)$定义为部分观测序列$X(m)=\{x(0),x(1),...,x(m)\}$和状态$S_i(m)$在m帧时刻

$$公式4：\alpha_i(m)=P(S_i(m),X(m))$$

该辅助变量可以用联合概率$\alpha_i(m-1)$在m-1时刻的递归形式表示，观察概率$p(x(m)|S_i(m))$为

$$公式5：\alpha_i(m)=(\sum_{j=1}^I\alpha_j(m-1)a_{ij})p(x(m)|S_i(m))$$

由于前一个观测向量在第一帧是未知的，所以$\alpha_i(0)$的初始值必须由初始状态概率$\pi_i$计算

$$公式6：\alpha_i(0)\pi_ip(x(0)|S_i)$$

MMSE准则的目标是最小化估计AR系数$\hat{C}$与真实系数$C$之间的均方误差，从而使以下代价函数最小化

$$公式7：
\mathcal{R}_{\mathrm{MSE}}(\hat{\boldsymbol{C}} | \boldsymbol{X})=\iint(\hat{\boldsymbol{C}}-\boldsymbol{C})^{T}(\hat{\boldsymbol{C}}-\boldsymbol{C}) p(\boldsymbol{C} | \boldsymbol{X}) d \boldsymbol{C}
$$

通过对损失函数的导数求根，可以找到这个优化问题的一个解

$$公式8：
\hat{C}_{\text {natst }}=\iint \boldsymbol{C} p(\boldsymbol{C} | \boldsymbol{X}) d \boldsymbol{C}
$$

由于我们没有条件概率$p(C|X)$的显式模型，这个量必须以状态概率的形式间接表示

$$公式9：
\hat{C}_{\text {hass }}=\iint \boldsymbol{C}\left[\sum_{i=1}^{I} p\left(\boldsymbol{C} | S_{i}\right) P\left(S_{i} | \boldsymbol{X}\right)\right] d \boldsymbol{C}
$$

$$公式10：
=\sum_{i=1}^{I} P\left(S_{i} | \boldsymbol{X}\right) \underbrace{\iint \boldsymbol{C} p\left(\boldsymbol{C} | S_{i}\right) d \boldsymbol{C}}_{\mathcal{E}\left\{\boldsymbol{C} | S_{i}\right\}=\boldsymbol{C}_{i}}
$$

如图所示，在状态$S_i$出现的情况下，方程10右侧的积分得到C的期望值，即对应的码本向量$C_i$。应用贝叶斯规则，代入辅助变量$\alpha_i$，得到如下估计

$$公式11：
\hat{C}_{\text {mats } E}=\frac{\sum_{i=1}^{I} C_{i} \alpha_{i}(m)}{\sum_{i=1}^{I} \alpha_{i}(m)}
$$

转载注明出处：https://www.heiqu.com/zwpypd.html

2000_wideband extension of telephone speech using a hidden Markov model (2)

相关推荐