论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362
神经网络支持的回声、混响和噪声联合多通道降噪 摘要我们考虑同时降低回声、混响和噪声的问题。在真实场景中,这些失真源可能同时出现,减少它们意味着组合相应的失真特定滤波器。当这些过滤器互相接触时,它们必须被联合优化。我们建议使用多通道高斯建模框架对线性回声消除和去混响后的目标和剩余信号进行建模,并通过神经网络联合表示它们的频谱。我们开发了一个迭代的块坐标上升算法来更新所有的过滤器。我们根据智能扬声器在各种情况下获得的声学回声、混响和噪声的真实记录来评估我们的系统。所提出的方法在整体失真方面优于单独方法的级联和不依赖于目标和剩余信号的频谱模型的联合缩减方法。
关键字:声学回声,背景噪声,期望最大化,联合失真减少,循环神经网络,混响。
1 引言在免提通信中,近端点的一个扬声器与远端点的另一个扬声器相互作用。近端扬声器可能距离麦克风几米远,相互作用可能会受到多种失真源的影响,例如背景噪声、声学回声和近端混响。这些失真源中的每一个都会降低语音质量、可懂度和收听舒适度,因此必须加以降低。
单通道和多通道滤波器已被用来分别降低这些失真源。它们可以分为随时间快速变化的短非线性滤波器和时不变(或缓慢时变)的长线性滤波器。短非线性滤波器通常用于降噪[1]。它们对真实信号固有的波动和非线性具有鲁棒性。去混响[2]和回声减少[3]可能需要长线性滤波器。它们能够在时不变条件下减少大多数失真源,而不会在近端信号中引入任何伪像或音乐噪声。
当几个失真源同时出现时,减少它们需要级联失真特定的滤波器。然而,由于这些滤波器相互作用,单独调整它们可能不是***的,甚至会导致额外的失真。已经提出了几种处理两个失真源的联合方法,即联合去混响和源分离/降噪[4]-[9],联合回声和降噪[10]-[15],以及联合回声降噪和去混响[16],[17]。
Habetset等人提出了一种单通道回声抑制、去混响和噪声抑制的联合方法。然而,在优化过程中忽略了线性回声消除滤波器。据我们所知,只有Togami等人提出了一种优化两个线性滤波器和非线性后置滤波器以减少回声、混响和噪声的解决方案[19]。他们通过在多通道高斯框架内对回声消除和去混响后的目标和残余信号进行建模来表示滤波器的相互作用。然而,没有为这些信号的短期频谱提出模型。这导致线性滤波器和非线性后置滤波器的错误估计。
最近,神经网络在估计语音和失真源的短期频谱以联合去混响和源分离/降噪[20],[21],以及联合回声和降噪[22],[23]方面显示出有希望的结果。然而,这些方法只集中于减少两个失真源。
在这篇文章中,我们提出了一种神经网络支持的联合多通道减少回声,混响和噪声的方法。我们在多通道高斯框架内同时对目标和残余信号的空间和频谱参数进行建模,并推导出一种迭代的块坐标上升(BCA)算法来更新回声消除、去混响和噪声/残余减少滤波器。我们根据智能扬声器在各种情况下获得的声学回声、近端混响和背景噪声的真实记录来评估我们的系统。我们通过实验证明了我们提出的方法与一系列单独的方法和Togami等人的联合归约方法相比的有效性[19]。
本文的其余部分组织如下。在第二节中,我们描述了现有的增强方法,这些方法是为分别降低回声、混响或噪声而设计的。在第三节中,我们使用BCA算法中的神经网络谱模型来解释我们的联合方法。在第四节中,我们详细介绍了我们基于神经网络的联合谱模型。第五节描述了我们方法的训练和评估的实验设置。第六节显示了我们的方法与单个方法的级联和Togami等人的方法相比的结果。最后,第七节对文章进行了总结,并提出了未来的发展方向。
2 背景在本节中,我们首先描述用于分别降低回声、混响或噪声的多通道方法。这些方法将被用作我们解决方案的构建模块,并作为我们实验中进行比较的基础。然后我们描述Togami等人的联合方法。本文采用了以下符号:标量用普通字母表示,向量用粗体小写字母表示,矩阵用粗体大写字母表示。符号\((\cdot)^{*}\)指复共轭,\((\cdot)^{T}\)指矩阵转置,\((\cdot)^{H}\)是Hermitian转置,\(\operatorname{tr}(\cdot)\)指矩阵的迹,\(\|\cdot\|\)指欧几里得范数,\(\otimes\)指克罗内克积。单位矩阵表示为I。维度要么由上下文隐含,要么由下标明确指定。
A 回声减少