语音信号处理入门系列(1)—— 语音信号处理概念

日期：2022-06-07 栏目：程序人生浏览：次

你知道苹果手机有几个麦克风吗？

语音交互（VUI）是指人与人/设备通过自然语音进行信息传递的过程。

语音交互的优势：

输入效率高。语音输入的速度是传统键盘输入方式的3倍以上。例如：语音电视选台、远场语音交互、语音支持组合指令输出（“播放周星驰电影、要免费的、4星以上的”）

使用门槛低。人类本就是先有语音再有文字，对于那些无法用文字交互的人来说，语音交互学习成本低，能带来极大的便利。例如：还不会打字的小孩，或者不方便打字的老人家

解放双手和双眼，更安全。例如：车载场景通过语音点播音乐和导航，医疗场景（医生在操作设备的时候，可能还需要记录病例）

传递更多的声学信息。声纹、性别、年龄、情感等。

语音交互的劣势

信息接收效率低。例如：文字能快速阅览概括信息，语音的话必须听完才能理解。

复杂的声学环境

心理负担。交互方式不一样，例如：不太愿意通过语音来进行交互，特别是在一些公共场合

人机语音交互发展

1952年，贝尔实验室，阿拉伯数字识别系统Audrey

1962年，IBM-Shoebox

......

2011年，iphone4s，Siri问世

2014年，win8，Cortana

2014年，Amazon发布echo音箱

2016年，Google发布GoogleHome

语音信号处理入门系列(1)—— 语音信号处理概念

应用场景

免提通话

电话/视频会议

手机——Siri、小爱同学

车载

智能音响——Amazon

家居——电视语音点台

语音信号处理入门系列(1)—— 语音信号处理概念

总结起来就是：家里、车里、路上。

复杂的声学环境

现实中的语音交互系统，无一例外的会受到各种环境不利因素的影响，极大影响了交互成功率和用户体验。

方向性干扰

环境噪声（散射噪声）

远讲产生的混响

声学回声

痛点：人和机器都听不清

一个成功的语音交互产品，意味着对语音交互的场合和使用模式无约束。

前端语音信号处理的意义：

面对噪声、干扰、声学回声、混响等不利因素的影响，运用信号处理、机器学习等手段，提高目标语音的信噪比或主观听觉感受，增强语音交互后续环节的稳健性。

让人听清：更高的信噪比，更好的主观听觉感受和可懂度，更低的处理延时。

让机器听清：更好的声学模型适配，更高的语音识别性能。

总结：语音信号处理的目标，是为了让人和机器更容易听清语音，让语音交互更加自然和无约束。

针对不同的干扰因素，采用不同的信号处理算法

　　去回声——去混响——盲源分离——波束赋形——语音降噪——自动增益控制

语音信号处理入门系列(1)—— 语音信号处理概念

声学回声消除

消除设备自身产生的回声干扰，最早应用于全双工语音通信、视频会议，在语音交互中起到打断唤醒的作用

主要模块

时延估计（需要把参考信号和输入信号中跟参考信号高度相关的，时间上对齐）

转载注明出处：https://www.heiqu.com/zzxggx.html

语音信号处理入门系列(1)—— 语音信号处理概念

相关推荐