论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

#fa77dfd6bfede8f36ce12862d166dcc4#

论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf

摘要

本文研究了利用深度神经网络及逆行自动语音识别(ASR)的语音模型,其输入是直接输入窗口形语音波(WSW)。本文首先证明了,网络要实现自动化需要具有于梅尔频谱相类似的特征,(梅尔频谱是啥?参考,https://blog.csdn.net/qq_28006327/article/details/59129110),本文研究了挖掘WSW特征的DNN结构。首先,改进的bottlenect DNN结构用于捕捉时域条件下不易表示的动态谱信息。基于DNNN的WSW内部的冗余信息也被考虑进来。WSW特征的语音模型与基于梅尔频谱相关性特征(MFSC)的语音模型在华尔街语料库数据集上进行比较。结果表明在WSJ语料库得到的基于WSW特征的语音模型要比基于MFSC特征的模型WER增加了3.0%。然而,当结合MFSC特征时,其相比于单独基于MFSC特征的DNNN的最好的模型降了4.1%.

关键词:语音识别,深度神经网络,Bottleneck 特征,波形语音

介绍

一些研究表明,可以通过利用深度神经网络来实现自动的语音识别,其输入为窗型语音波数据(WSW),大部分研究,利用多层网络结构,同时,在不同任务领域上进行评估表明,ASR word error rates(WERs,参考链接:https://zhuanlan.zhihu.com/p/59252804)其基于WSW特征可以合理的近似较为常用的MFSC特征。然而,基于此研究,基于WSW的语音模型仍无法与基于MFSC特征的方法相提并论。基于WSW特征的WERs模型相比MFSC的一般高出15%~20%。本文研究主要针对上述问题,建立了一个有效的网络结构,学习算法用于基于深度神经网络自动的特征分析,使性能超过基于MFSC的语音模型方法。

在自动语音识别领域,基于深度学习方法的语音特征分析本文分三部分说明。第一个是输入为WSW特征的DNN模型的分析。搞清楚这类模型对于表示动态频谱还是静态频谱的表示信息较好,以及其在不同的信噪比源变化中其鲁棒性。实验表明,深度网络可以从WSW特征中学到与MFSC中的梅尔频谱相似的表示特征。这些特征可以用深度全连接网络或者卷积网络结构进行实现。第二部分是针对网络的权重进行分析。表明,在基于华尔街语料库全连接DNN网络的前几层的表示与梅尔频谱特征相类似,但用到的语料库的大小更小。

研究的第二部分为替换网络的结构来解释语音信息无法从窗型语音波中自动学习得到。本文重点研究了基于WSW的DNN对动态超段频谱建模的能力。人类语音识别中的谱变换及语音识别模型中的谱变换二者具有十分重要的地位。特征变化的速率所包含的信息从短时间语义段中得到。该语义段通过对MFSC特征执行傅里叶变换得到的模型谱进行描述。

在基于MFSC的语义模型中,谱动态通过利用多个级联的谱向量形式形成的特征向量或将频谱差异系数添加到静态相关性中来捕捉。这样特征表示可以捕捉150毫秒至250毫秒的谱运动。这种特征对于基于WSW的DNN网络即使增大窗型波的时间间隔也很难从音波中学习到。在section2中可以将网络结构结合bottleneck层来对特征进行捕捉,可以对250ms的帧输出进行拼接。

本文第三部分提出即使是基于DNN语音模型也可以达到与基于MFSC特征最好的系统的性能效果,但仍需额外的计算复杂度及冗余。该假设是将一个较为简单的梅尔 filterbank用一个训练好的全连接或者部分链接的深度网络的权重进行了替换。对于全连接DNN。网络的每层超过1,000,000次操作。在第四章考虑了自动训练的filterbank的冗余性。

第二章描述了基于WSW的DNN隐藏层训练权重的分析。第三章描述了连续的bottleneck特征为基于WSW的DNN提供了一个改进的谱动态模型。

基于WSW的DNN的分析

本节分析了在由华尔街语料库得到的WSWs训练的DNN的中间层的表示。首先,描述了DNN的网络结构,然后接下来的实验中用到的语料库,最后是第一层训练权重分析的结果。

语义模型结构及训练:基于WSW的DNN的输入帧是为150ms采样语音波形的一部分。本文中使用宽带为16KHz采样语音的2400个采样段。对于每个分析帧,输入的位置应该提前10ms或者160个样本。对于一个包含三个隐藏层的全连接DNN,每层由1024个节点。节点后通过ReLU进行非线性变换。输出层采用2019个节点的softmax层,每个代表这隐马尔科夫模型中的上下文依赖性(context dependent CD)。

语料库及模型的训练:华尔街语料库用于训练及评估本文中的所有语音模型。包含在一个较高信噪比的环境中报纸阅读话语的记录。WSJ0/WSJ1 SI-284用于训练所有的HMM及DNN语音模型。包含时长80小时的语音及37961个话语,来自284个说话人。Test-Dev93包含515个话语用作validation set,Test-Eval92包含330个话语用于测试,使用对应于20000字的开放词汇语言模型的测试条件用于所有评估。自动语音识别的解码器基于连续密集的HMMs高斯混合(HMM-GMMs)用于对齐语音框中CD HMM状态及MFCC(频率倒谱系数),HMM-GMM自动模型训练及状态上下文聚类到2019个CD状态通过KalDI工具进行实现。这些模型利用MFCC通过LDA及最大似然线性变换(MLLT)变换后的特征进行训练。训练过程中同时用到了训练这适应性训练。ASR解码器将2019个CD状态标签的一个分配到待训练的语音帧上,作为DNN进行交叉训练的监督。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxydg.html