你知道苹果手机有几个麦克风吗?
·语音交互(VUI)是指人与人/设备通过自然语音进行信息传递的过程。
语音交互的优势:
输入效率高。语音输入的速度是传统键盘输入方式的3倍以上。例如:语音电视选台、远场语音交互、语音支持组合指令输出(“播放周星驰电影、要免费的、4星以上的”)
使用门槛低。人类本就是先有语音再有文字,对于那些无法用文字交互的人来说,语音交互学习成本低,能带来极大的便利。例如:还不会打字的小孩,或者不方便打字的老人家
解放双手和双眼,更安全。例如:车载场景通过语音点播音乐和导航,医疗场景(医生在操作设备的时候,可能还需要记录病例)
传递更多的声学信息。声纹、性别、年龄、情感等。
语音交互的劣势
信息接收效率低。例如:文字能快速阅览概括信息,语音的话必须听完才能理解。
复杂的声学环境
心理负担。交互方式不一样,例如:不太愿意通过语音来进行交互,特别是在一些公共场合
人机语音交互发展
1952年,贝尔实验室,阿拉伯数字识别系统Audrey
1962年,IBM-Shoebox
......
2011年,iphone4s,Siri问世
2014年,win8,Cortana
2014年,Amazon发布echo音箱
2016年,Google发布GoogleHome
应用场景
免提通话
电话/视频会议
手机——Siri、小爱同学
车载
智能音响——Amazon
家居——电视语音点台
总结起来就是:家里、车里、路上。
复杂的声学环境现实中的语音交互系统,无一例外的会受到各种环境不利因素的影响,极大影响了交互成功率和用户体验。
方向性干扰
环境噪声(散射噪声)
远讲产生的混响
声学回声
痛点:人和机器都听不清
一个成功的语音交互产品,意味着对语音交互的场合和使用模式无约束。
前端语音信号处理的意义:
面对噪声、干扰、声学回声、混响等不利因素的影响,运用信号处理、机器学习等手段,提高目标语音的信噪比或主观听觉感受,增强语音交互后续环节的稳健性。
让人听清:更高的信噪比,更好的主观听觉感受和可懂度,更低的处理延时。
让机器听清:更好的声学模型适配,更高的语音识别性能。
总结:语音信号处理的目标,是为了让人和机器更容易听清语音,让语音交互更加自然和无约束。
针对不同的干扰因素,采用不同的信号处理算法
去回声——去混响——盲源分离——波束赋形——语音降噪——自动增益控制
声学回声消除消除设备自身产生的回声干扰,最早应用于全双工语音通信、视频会议,在语音交互中起到打断唤醒的作用
主要模块
时延估计(需要把参考信号和输入信号中跟参考信号高度相关的,时间上对齐)