上图3下半部分显示的BNN-DNN中的DNN层分离出来进行训练,图的上半部分为HMM/DNN。BN-DNN基于CE损失标准进行训练,训练后,将bottleneck层移除,同时将BN层的激活值进行保留作为BN-DNN的输出。
基于WSW及MFSC特征的BN-DNN WER性能结果如下图所示。将1,3行进行比较,基于MFSC特征对模型增加stacked bottleneck WER并没有发生很大的改变。这是由于1800维的MFSC特征作为BN网络的输入已经被拼接的15帧MFSC 帧图像格式化了。将第2行与第4行进行比较发现。BN-DNN将WSW特征的WER降低了14.2%,已经同最好的基于MFSC的WER很接近了。
对WSW/MFSC特征结合使用,对于10ms,窗型输入,40维的WSW的BN-DNN与40维的MFSC向量进行拼接。80维的向量与+/-7帧向量进行拼接作为输入传到bottleneck中。上图最后一行显示了结果,相比MFSC特征WER,减少了%4。
基于WSW的DNN训练结构初始化
通过前面对网络第一层度权重矩阵的分析,训练一个基于WSW的全连接DNN可以得到一个具有识别结构的网络。其包含的结构可能对于分类性能很重很。但很难从轶事中观察中进行表征。一种方法是增加一个类似于filter-bank的结构,选择一个与梅尔filter-bank特征分析类似的参数化。本文的工作重点是研究是否可以通过训练一个全连接网络来发现这个结构。确定研究网络的哪个部分来通过连续的迭代来提升网络的性能及效率。根据图1的第一层权重矩阵相邻行显示了大部分情况下中心频率相似,但相位及增益不同的filter的响应。通过观察,是否可以将该层进行隔离,从而可以使DNN更有效训练的结构。
设计了两步过程,根据少量的"basis rows"的延迟及缩放变换来近似权重矩阵第一层的行。在过程的第一步,得到与带通滤波器相关的矩阵行数,该带通滤波器的中心频率接近于梅尔滤波器的中心频率。
其可以作为"basisi rows",用
进行表示。在第二步,将最接近basis rows hi中心频率的滤波器的权重矩阵被看作是basis rows的缩放或者延迟版本。即对于权重矩阵第wj行,其近似
,其中,a_i,j 及d_i,j分别代表wj相对于hi(其傅里叶变换于带通滤波器的中心频率最相似)缩放尺度及延迟数值 。上述形成的具有行形式的第一层权重矩阵用于初始化训练一个新的基于WSW的DNN。下图显示了基于前文初始化得到的每个训练使其的验证集的帧精度(FAC)。与随机初始化的DNN参数得到的FAC进行比较,基于第一层权重矩阵的结构初始化,FAC的精度始终更高。另外,结构初始化使WER进行小幅度的下降。7.64%下降至7.51.同时,还使basis row与第一层权重矩阵的剩余行之间的平均近似误差减小。