论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015) (2)

对标准的WSW DNN进行评估:为了评估混合HMM-DNN ASR系统的基本性能,上述描述的网络结构使用多个特征集进行训练,包含带有MFCC的WSW特征以及MFSC特征。HMM-GMM与HMM-DNN系统的比较如下表1所示。通过前两行比较可以发现,HMM-DNN相比HMM-GMM在WER上有较大幅度的降低。与MFCC特征相比,MFSC特征的WER相对减少3%。最下方基于WSW特征在WER上相比MFCC特征增加了15.5%。

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

在基于华尔街语料库上可以在没有特定设计特征的原生语音样本上定义的语音模型可以使WER降到9%以下。可以通过从分析网络参数中管擦汗到参数估计捕捉的信息来得到一些灵感。在权重矩阵W中,使用一个梅尔频谱形的表示。在基于WSW的DNN的第一层,如下图所示,表明与此权重矩阵相关联的值及根据这些行上的数值计算对数幅度谱可以看出来其近似于带通滤波器的响应。

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

下图1展示了权重矩阵W1024行包含信息的总结。图中的第i行表示权重矩阵W中第i行的平滑对数幅度谱。平滑对数幅度谱通过对w进行padding,并对权重计算其快速傅里叶变换

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

,然后使用一个高斯核进行平滑处理。权重矩阵W的行数根据平滑后谱中每行的峰值计算得到的频率进行记录。最终对于记录的行数根据

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

进行描点。由图中可以看出DNN已经学习到了类似于梅尔频谱的特征表示。

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

stacked bottoleneck architecture

本节描述将bottleneck DNN应用到基于WSW的DNN语音模型中。该改进模型可以看作是一种机制,用于连续的将低维的bottleneck frames进行拼接,从而可以对帧间谱动态进行建模。ASR中许多基于BN DNN结构被提出来。其通用的结构形式如下图所示,BN-DNN通过级联一些高维度的非线性隐藏层及低纬度的隐藏层构建。这种设计的最初动因是对非线性空间进行降维处理。

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

如上图所示,输入维度为2400(包含150ms)及一个40维度的bottleneck。一些BN-DNN通过拼接帧附近的bottleneck层的输出得到的局部谱信息进行增强。当将MFSC特征应用到BN-DNN时,BN只减少了一点WER。bottleneck谱信息的结合对于基于WSW的DNN是一个研究点,这是因为无法通过简单的方法在特征分层次对谱信息进行利用。因此,期望基于WSW 特征的BN-DNN结构可以拼接bottoleneck输出进而对ASR WER产生一个较大的影响。

BN-DNN的结构设计如下:2400个输入节点对应着2400采样WSW,两个1024节点的隐藏层。及一个40个维度的bottleneck层。每层后面跟着一个ReLU。bottleneck层在具有1800个一二阶不同相关性节点向量的15帧进行拼接,表示150ms内频谱的动态变化。在解码过程中,级联的bottleneck输出送到三个1024维度的隐藏层的网络及2019节点的softmax输出层,DNN中softmax的输出对应HMM中上下文的相关状态(CD)。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzxydg.html