信号为E时,如何让语音识别脱“网”而出? (5)

第二章节和第三章节,介绍了一些我们完成的工作,本章节将分为两部分。首先,我们通过实验对比验证工作的成果。其次,我们将引擎和行业竞品进行对比。

工作成果验证

目前总共有6个通用测试集,测试集大小分别为1220、6917、4069、2977、2946、2500条语音。其中测试集1是手机录制测试集,集2是命令类的录音,集3是麦克风录音涉及一般生活情景,4、5、6集都是线上实网数据,区别是 集4、5背景比较干净,集6背景带噪。

测试集

DNN

TDNN

TDNN优化版

1

10.4

8

6.9

2

13.7

11.3

9.3

3

22.9

18.3

15.6

4

15.8

13.3

12

5

15.3

12.2

10.5

6

22.6

20.3

17.8

在模型选取对比,我们针对DNN、TDNN、以及TDNN优化版(优化内容为第三章的2、3、4小结内容),总共设计出三个不同版本的嵌入式语音识别引擎进行对比。

三个版本的嵌入式语音识别引擎在6个通用测试集上的实验结果如表中所示。表中的数字表示字错误率,即100个字里面识别错字的数量。总体来看,TDNN对识别率带来了20%左右的提升,其他工作也带来了10%左右的提升。

img

从语音识别的基本概念,到语音识别速度和内存优化的介绍,以及沉淀的一些算法研究、实验结果验证,本文大体讲述了语音识别从原理到实践的基本过程。欢迎同样从事语音AI识别的小伙伴加入我们~

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxddy.html