第二章节和第三章节,介绍了一些我们完成的工作,本章节将分为两部分。首先,我们通过实验对比验证工作的成果。其次,我们将引擎和行业竞品进行对比。
工作成果验证
目前总共有6个通用测试集,测试集大小分别为1220、6917、4069、2977、2946、2500条语音。其中测试集1是手机录制测试集,集2是命令类的录音,集3是麦克风录音涉及一般生活情景,4、5、6集都是线上实网数据,区别是 集4、5背景比较干净,集6背景带噪。
测试集
DNN
TDNN
TDNN优化版
1
10.4
8
6.9
2
13.7
11.3
9.3
3
22.9
18.3
15.6
4
15.8
13.3
12
5
15.3
12.2
10.5
6
22.6
20.3
17.8
在模型选取对比,我们针对DNN、TDNN、以及TDNN优化版(优化内容为第三章的2、3、4小结内容),总共设计出三个不同版本的嵌入式语音识别引擎进行对比。
三个版本的嵌入式语音识别引擎在6个通用测试集上的实验结果如表中所示。表中的数字表示字错误率,即100个字里面识别错字的数量。总体来看,TDNN对识别率带来了20%左右的提升,其他工作也带来了10%左右的提升。
从语音识别的基本概念,到语音识别速度和内存优化的介绍,以及沉淀的一些算法研究、实验结果验证,本文大体讲述了语音识别从原理到实践的基本过程。欢迎同样从事语音AI识别的小伙伴加入我们~