从为[23]收集的多语种数据中选择干净的语音作为近端信号。数据集包括法语、德语、意大利语、普通话、英语、俄语和西班牙语。原始数据的各种来源如[23]所述。德国的数据因质量差而被排除在外。语音信号被分割成持续时间为4s的样本。RMS小于或等于零的样本被丢弃。舍入误差可能导致RMS小于零。作为排除噪声信号的附加机制,每个文件由[15]中提出的语音增强模型处理,通过从噪声信号中减去估计的语音信号来估计语音和噪声信号。如果信噪比低于5db,则丢弃语音文件。最后,从每种语言中抽取20小时来创建120小时的多语言语音数据集。
为了覆盖回声场景中具有高方差的噪声类型,我们使用了[23]提供的噪声语料库。和以前一样,噪声文件被切割成4秒钟的样本,并且每个RMS小于或等于零的样本被丢弃。此外,还添加了来自MUSAN语料库[24]的器乐(同样,经过4s分割)。这导致大约140小时的噪音。
最后,为了建立反映潜水员混响量影响的真实回波场景,使用了为[25]收集的脉冲响应(IR)数据集。数据集包含来自各种来源的真实脉冲响应,如[26、27、28]和基于图像方法的模拟脉冲响应[29]。对于每个脉冲响应,确定直接路径的起点,并将其设置为[19]中建议的位置0。
2.4 训练和数据增强 2.5 基线系统 2.6 客观和主观评价 3 结果 4 总结