信号为E时，如何让语音识别脱“网”而出？ (5)

日期：2021-08-23 栏目：程序人生浏览：次

第二章节和第三章节，介绍了一些我们完成的工作，本章节将分为两部分。首先，我们通过实验对比验证工作的成果。其次，我们将引擎和行业竞品进行对比。

工作成果验证

目前总共有6个通用测试集，测试集大小分别为1220、6917、4069、2977、2946、2500条语音。其中测试集1是手机录制测试集，集2是命令类的录音，集3是麦克风录音涉及一般生活情景，4、5、6集都是线上实网数据，区别是集4、5背景比较干净，集6背景带噪。

测试集

DNN

TDNN

TDNN优化版

10.4

6.9

13.7

11.3

9.3

22.9

18.3

15.6

15.8

13.3

15.3

12.2

10.5

22.6

20.3

17.8

在模型选取对比，我们针对DNN、TDNN、以及TDNN优化版（优化内容为第三章的2、3、4小结内容），总共设计出三个不同版本的嵌入式语音识别引擎进行对比。

三个版本的嵌入式语音识别引擎在6个通用测试集上的实验结果如表中所示。表中的数字表示字错误率，即100个字里面识别错字的数量。总体来看，TDNN对识别率带来了20%左右的提升，其他工作也带来了10%左右的提升。

从语音识别的基本概念，到语音识别速度和内存优化的介绍，以及沉淀的一些算法研究、实验结果验证，本文大体讲述了语音识别从原理到实践的基本过程。欢迎同样从事语音AI识别的小伙伴加入我们~