ASR语音识别技术,语音识别系统的原理

我们介绍了智能语音识别技术的整体过程，共分为ASR、NLP、TTS三大步。本文我们对ASR过程进行进一步解析。

ASR（自动语音识别）就是将麦克风采集到的自然声音转化为文字的过程，相当于人的耳朵+大脑（一部分）。下图是机器识别人类的语音输入（亦即ASR）博主多年操作经验发现的原理和过程：

第一步：建立声学模型。对于同一个单词或汉字，由于不同人的发音、语调、语速等各不相同，比如男人和女人的、大人和小孩的，为了让机器能够识别尽量多的人，声学模型建立过程需要录入大量的原始用户声音，以从中提取特征建立声学模型数据库。大数据在这一步中的重要性体现了出来，可以说谁掌握了数据、谁就成功了一半。

第二步：建立语言模型。和声学模型的建立过程及面临的问题类似，只是这一步针对的是文本而不是声音。语言模型可以调整声学模型所得到的不合逻辑的字词，使识别结果变得正确通顺。

第三步：语音识别。前面两步都是需要预先做好的，最终形成的数据库存储在设备本地或云端，而这一步是实时的语音识别过程。首先，将用户的语音输入进行编码和特征提取（已被拆分成N份，合在一起才是一个汉字或单词），将提取到的特征拿到声学模型库（第一步中介绍的）中去查询，得到单个的单词或汉字；然后再拿到语言模型库（第二步中介绍的）中去查询，得到最匹配的单词或汉字。