论文地址:深度学习用于噪音和双讲场景下的回声消除
博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html
摘要传统的声学回声消除(AEC)通过使用自适应算法识别声学脉冲响应来工作。 我们将AEC公式化为有监督的语音分离问题,该问题将说话人信号和近端信号分开,以便仅将后者传输到远端。 训练双向长短时记忆的递归神经网络(BLSTM)对从近端和远端混合信号中提取的特征进行估计。然后应用BLSTM估计的理想比率掩模来分离和抑制远端信号,从而去除回波。实验结果表明,该方法在双向通话,背景噪声和非线性失真情况下回波去除的有效性。 另外,所提出的方法可以推广到未经训练的说话者。
1 引言当扬声器和麦克风在通信系统中耦合,从而使麦克风拾取扬声器信号及其混响时,就会产生回声。 如果处理不当,则位于系统远端的用户会听到自己的声音,该声音会由于系统的往返时间而延迟(即回声),并与来自近端的目标信号混合在一起。 回声是语音和信号处理应用程序(例如电话会议,免提电话和移动通信)中最烦人的问题之一。 通常,通过使用有限冲激响应(FIR)滤波器[1]自适应地识别扬声器和麦克风之间的声学冲激响应来实现回声消除。 文献[1] [2]中提出了几种自适应算法。 其中归一化最小均方(NLMS)算法家族[3]由于其相对鲁棒的性能和低复杂度而得到了最广泛的应用。
双向通话是通信系统中固有的,因为当双方的扬声器同时通话时,双向通话是典型的通话。 然而,近端语音信号的存在严重降低了自适应算法的收敛性,并可能导致它们发散[1]。 解决此问题的标准方法是使用双向通话检测器(DTD)[4] [5],它会在双向通话期间禁止自适应。
在麦克风处接收的信号不仅包含回声和近端语音,还包含背景噪声。 公认的是,仅AEC就无法抑制背景噪声。 通常使用后置滤波器[6]来抑制背景噪声和残留在回声消除器输出端的回声。 Ykhlef和Ykhlef [7]将自适应算法与基于短时频谱衰减的噪声抑制技术相结合,并在存在背景噪声的情况下获得了大量的回声消除。
文献中的许多研究将回声路径建模为线性系统。但是,由于诸如功率放大器和扬声器之类的组件的限制,在AEC的实际情况下,非线性失真可能会引入到远端信号中。为了克服这个问题,一些工作[8]-[9]提出应用残余回声抑制(RES)来抑制由非线性失真引起的残余回声。由于深度学习具有对复杂的非线性关系进行建模的能力,因此它可以成为对AEC系统的非线性进行建模的有力选择。 Malek和Koldovsk`y [10]将非线性系统建模为Hammerstein模型,并使用两层前馈神经网络和自适应滤波器来识别模型参数。最近,李等人。文献[11]采用了深度神经网络(DNN)来估计远端信号和声学回声抑制(AES)输出的RES增益[12],以消除回声信号的非线性成分。
AEC的最终目标是完全消除远端信号和背景噪声,以便仅将近端语音发送到远端。 从语音分离的角度来看,AEC可以自然地视为分离问题,其中近端语音是要与麦克风录音分离并发送到远端的来源。 因此,代替估计声回声路径,我们采用监督语音分离技术,以可访问的远端语音作为附加信息将近端语音从麦克风信号中分离出来[13]。 通过这种方法,无需执行任何双向通话检测或后置过滤即可解决AEC问题。
深度学习已显示出语音分离的巨大潜力[14] [15]。 递归神经网络(RNN)建模时变函数的能力可以在解决AEC问题中发挥重要作用。 LSTM [16]是RNN的一种变体,旨在处理传统RNN的消失和爆炸问题。 它可以对时间依赖性进行建模,并在嘈杂的条件下表现出良好的语音分离和语音增强性能[17] [18]。 在最近的研究中,Chen和Wang [19]使用LSTM来研究与噪声无关的模型的说话人泛化,评估结果表明,LSTM模型比前馈DNN取得了更好的说话人泛化。
在这项研究中,我们使用双向LSTM(BLSTM)作为监督学习机,根据从混合信号以及远端语音中提取的特征来预测理想比率掩码(IRM)。 我们还研究了该方法的说话人概括。 实验结果表明,该方法能够在嘈杂,双向通话和非线性失真情况下消除声学回声,并能很好地推广到未经训练的扬声器。
本文的其余部分安排如下。 第2节介绍了基于BLSTM的方法。 实验结果在第3节中给出。第4节总结了论文。
2 提出的方法 2.1 问题公式化考虑传统的声学信号模型,如图1所示,其中麦克风信号$y(n)$由回声$d(n)$、近端信号$s(n)$和背景噪声$v(n)$组成。
$$公式1:y(n)=d(n)+s(n)+v(n)$$