论文翻译:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios (2)

论文翻译:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

图1 回声场景示意图

  回声信号是由说话人信号与房间脉冲响应(RIR)卷积产生的。然后将回声、近端语音和背景噪声混合产生麦克风信号。我们将AEC定义为一个有监督的语音分离问题。如图2所示,将麦克风信号和回声提取的特征输入到BLSTM中。将估计的mask与麦克风信号的谱图逐点相乘,得到近端信号的估计谱图。最后,利用短时间傅里叶反变换(ISTFT)将近端语音信号的相位与估计的幅度谱图重新合成$s(n)$。

论文翻译:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

2.2  特征提取

  首先将输入信号$y(n)$和$x(n)$以16khz采样,以20ms帧长(320采样点),10ms帧移进行分帧。然后将320点短时傅里叶变换(STFT)应用于输入信号的每个时间帧,结果产生161个frequency bins。最后,对幅度响应进行对数运算,得到了对数幅度谱特征[20]。该方法将麦克风信号和远端信号的特征串联在一起作为输入特征。因此,输入的维数是161*2 = 322。

2.3  训练目标

  我们使用理想比值掩膜(IRM)作为训练目标。IRM定义为:

$$公式2:\operatorname{IRM}(m, c)=\sqrt{\frac{S^{2}(m, c)}{S^{2}(m, c)+D^{2}(m, c)+V^{2}(m, c)}}$$

其中,$S^2(·)、D^2(·)、V^2(·)$表示T-F单元内近端信号、声学回声和背景噪声在m时刻和c频率的能量。

2.4  模型介绍

  本文采用的BLSTM结构如图2所示。一个BLSTM包含两个单向LSTM,一个LSTM对信号进行正向处理,另一个lstm对信号进行反向处理。采用全连接层进行特征提取。BLSTM有4个隐藏层,每层有300个单位。输出层是一个全连接的层。由于IRM的取值范围为[0,1],所以我们使用sigmoid函数作为输出层的激活函数。采用Adam优化器[21]和均方误差(MSE)代价函数对LSTM进行训练。学习速率设置为0.0003。训练epoch设置为30。

3  实验结果 3.1  性能度量

  本文采用两种性能指标来比较系统的性能:单端通话时期(无近端信号周期)的回波损耗增强(ERLE)和双端通话时期的语音质量感知评价(PESQ)。

ERLE[3]用于评估系统实现的回波衰减,定义为

$$公式3:\mathrm{ERLE}=10 \log _{10}\left\{\frac{\mathcal{E}\left[y^{2}(n)\right]}{\mathcal{E}\left[\hat{s}^{2}(n)\right]}\right\}$$

其中$\varepsilon $是统计期望操作。

  PESQ与主观得分[22]高度相关。它是通过将估计的近端语音$\hat{n}$与原始语音s(n)进行比较得到的。PESQ评分范围为-0.5 ~ 4.5。分数越高质量越好。

  在接下来的实验中,对信号处理约3秒后,即稳态结果,对传统AEC方法的性能进行测量。

3.2  实验设置

  TIMIT数据集[23]在文献[24][5]中被广泛用于评价AEC性能。我们从TIMIT数据集的630个说话人中随机选择100对说话人作为近端和远端说话人(40对男性-女性,30对男性-男性,30对女性-女性)。每个说话人有10个以16khz采样的语音。随机选择同一远端说话人的三个语音,并将其串联起来形成远端信号。然后,通过在前端和后端填充零,将近端说话人的每个语音扩展到与远端信号相同的大小。稍后将在图3中显示如何生成混合的示例。

  TIMIT每个说话人录有10段语音,其中七段语音被用来生成训练远端语音(有五个组合{012}、{013}、{014}、{015}、{016}),剩余三段被用来生成测试远端语音({789})。训练混合语音由 每个近端语音 和 五个不同的远端信号 混合而成,因此,我们总共有3500种训练混合语音。测试混合语音是由每个近端信号与一个远端信号混合而成,有100种。

  为了研究该方法的泛化效果,我们从TIMIT数据集中的其余430位说话人中随机选择了另外10对说话人(4对男女,3对男女,3对男女),并生成了100个未经训练的说话人测试混合语音。

论文翻译:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

图3:3.5 dB SER和10 dB SNR的波形和频谱图。(a) 麦克风信号,(b)回声信号,(c)近端语音,(d)BLSTM估计的近端语音。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwgysx.html