语音唤醒识别,唤醒语音识别功能

语音认别---唤醒技术KWS介绍

　　由于目前终端（如手机）上的CPU还不足够强劲，不能让语音识别的各种算法跑在终端上，尤其现在语音识别都是基于深度学习来做了，更加不能跑在终端上，所以目前主流的语音识别方案是声音采集和前处理在终端上做，语音识别算法则放在服务器（即云端）上跑。虽然这种方案有泄漏隐私（把终端上的语音数据发给服务器）和没有网络不能使用等缺点，但也是不得已而为之的，相信在不久的将来等终端上的CPU足够强劲了会把语音识别的所有实现都放在终端上的。

　　是不是意味着终端上做不了语音识别相关的算法了？其实也不是，语音唤醒功能是需要在终端上实现的。语音唤醒是指设定一个唤醒词，如Siri的“Hi Siri”，只有用户说了唤醒词后终端上的语音识别功能才会处于工作状态，否则处于休眠状态。这样做主要是为了降功耗，增加续航时间。目前很多终端都是靠电池供电的，对功耗很敏感，是不允许让语音识别功能一直处于工作状态的。

Google 基于CNN实现的算法，属于Deep KWS方案

评判标准：FRR (False Reject Rate), "漏警率"， CNN的FRR比DNN的FRR提升了27%~44%.

限制了乘法的运算量，限制了参数的数量

很早以前大家使用HMM，后来2014年，Google使用了DNN的方案SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS - 2014 IEEE，然后2014年有人使用CNN进行语音识别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大，而KWS方案对计算量要求有一定的限制，所以本论文中他们提出了优化了版本的CNN方案。

Baidu基于CRNN实现的算法KWS方案

又一个Deep KWS方案

CRNN (Convolutional Recurrent Neural Networks)： CNN+RNN,

流程：PCEN -> CNN -> BRNN -> DNN -> SoftMax

RNN对信噪比大的场景很有帮助

Apple基于DNN实现的算法KWS方案

没找到Apple发的相关论文，只找到两篇Apple官方提供的文档，Apple对音频的识别是基于DNN模型实现的，但是他有2个DNN模型，首先会用一个计算量较小的模型进行预检，然后再用更加精确的Large DNN进行计算，语音识别后，在通过HMM Scorer计算得分，如果分数满足阈值要求，会触发Siri。但是如果不满足要求，系统也会进入几秒的敏感期，这个敏感期内，如果用户再次重复这个主题，那么会快速识别，这样降低了漏报率。
手表中使用的DNN模型只有一个，是介于Small DNN和Large DNN之间的模型。

一分快三技巧准确率100别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大，而KWS方案对计算量要求有一定的限制，所以本论文中他们提出了优化了版本的CNN方案。