2000_wideband extension of telephone speech using a hidden Markov model

日期：2022-02-12 栏目：程序人生浏览：次

博客地址：https://www.cnblogs.com/LXP-Never/p/12151866.html

摘要

　　本文提出了一种从lowpass-bandlimited(低通带限)语音中恢复宽带语音的算法。窄带输入信号被分类为有限数量的语音，关于宽带频谱包络的信息取自预先训练的码本。在码本搜索算法中，采用了一种基于隐马尔可夫模型的统计方法，该方法考虑了带限语音的不同特征，使均方误差准则最小化。新算法只需要一个宽带码本，本质上保证了系统在基带的透明性。增强后的语音比输入语音的带宽大得多，而且没有引入令人讨厌的artifacts(伪影)。

1 引言

　　在目前的公共电话系统中，传输语音的带宽被限制在300 Hz到3.4 kHz的频率范围内。这导致了典型的电话语音通常是单薄和低沉的。然而，近年来，我们发现人们对语音通信系统的质量要求越来越高，不仅要求高的可懂度，还要求高的主观质量，例如在免提电话或电话会议应用中。这种趋势反映在正在进行的宽带语音编解码器的标准化上。

　　真正的宽带语音通信需要增强的语音编解码器和提高的比特率，因此需要修改传输链路。因此，出于经济原因，带宽限制在未来不太可能改变。另一种获得更高带宽的方法是仅利用带限语音来推断传输链路接收端语音信号中缺失的低频和高频成分。

　　这种语音信号的带宽扩展只有基于语音产生过程的模型时才是可行的。宽带源模型的参数可以从带限语音中估计出来。这些参数可以与源模型结合使用来估计和添加缺失的频率。

　　本文只讨论带宽向更高频率的扩展，即假设输入信号只包含低于3.4 kHz的频率（这个频段将在下文中定义为基带）。通过增加信号分量，它将扩展到频率高达7khz。

2 算法

　　根据语音产生过程的自回归(AR)模型，将提出的带宽扩展算法分为两个任务，这两个任务在一定程度上是相互独立的：语音信号的频谱包络线的扩展和激励信号的扩展[1]。算法框图如图1所示。

2000_wideband extension of telephone speech using a hidden Markov model

图1 带宽扩展算法的块图和主信号流

　　如果输入信号$s_{nb}(k')$采样频率为$f_{a'}=8kHz$，则算法的第一步是一个low-pass interpolation(低通插值滤波器)。算法其余部分以$f_a = 16khz$的采样率处理输入信号。然而，信号$s_{nb}(k)$仍然只包含3.4 kHz以下的信号分量。进一步的处理是以20 ms的帧大小逐帧进行的。在下面，帧索引将由变量$m$表示。

　　使用窄带输入信号和预先训练的码本，计算当前语音帧的宽带谱包络的估计值（参见第3节）。然后从码本中提取描述该谱包络的AR滤波器系数$\hat{C}$，并将其用于FIR滤波器$H_1(z)$中以估计窄带激励信号$\hat{x}_{nb}$。由于对于无声帧，该激励信号的基带可以假定为近似白色，而对于有声帧，该激励信号的基带分别由振幅相等的谐波组成，因此其带宽可以非常简单地扩展（请参见第4节）。最终将扩展的激励信号$\hat{x}_{wb}(k)$馈入全极点合成滤波器$H_S(z)$，从而创建增强的输出信号$\hat{s}_{wb}(k)$。

　　与以往的语音信号带宽扩展算法(如[1, 2, 3])不同，所提出的算法不需要几个窄码本和宽带码本的组合。它只利用一个单一的宽带码本。因此，用于分析滤波器和合成滤波器的AR系数是相同的，而且这两个滤波器的传递函数是互逆的

$$公式1：H_s(z)=\frac{1}{H_1(z)}$$

　　由于这一特性，系统基带信号分量的透明性可以得到保证——这足以确保在残余信号扩展期间激励信号的基带不被修改。

3 频谱包络

　　如前一节所述，语音信号的频谱包络的扩展基于宽带码本。在该码本中，存储了代表典型语音频谱包络的几组AR系数（在下文中，第$i$组AR系数将由$C_i$表示。码本条目的总数为$I$）。使用足够大的宽语音语音训练数据集和常用的LBG算法[4]对码本进行训练，从而最大程度地减少Itakuro距离测度（请参见[l]）。尽管使用宽带语音材料对码本进行训练可以确保在码本中包含正确的代表不同语音的声音，但是这也带来了挑战，即对于输入信号的分类，即对输入信号的分类只有带限信号可用。

　　码本搜索方法的基础是语音生成过程的隐马尔可夫模型（HMM）。 HMM的恰好一个状态$S_i$被分配给码本的每个条目$C_i$。进一步假设源的状态仅在输入信号的两个帧之间发生变化。注意，如果宽带语音可用，则在模型意义上可以计算出真实状态序列。

　　如果只知道窄带语音，则通过以下步骤执行分类:首先，从窄带语音中提取有限数量的特征。将这些提取的特征与语音产生过程的统计模型进行比较。然后将当前的语音帧划分为训练好的语音或直接估计AR系数。

3.1 特征

转载注明出处：https://www.heiqu.com/zwpypd.html

2000_wideband extension of telephone speech using a hidden Markov model

相关推荐