首页 > 编程知识 正文

ASR语音识别技术,语音识别系统的原理

时间:2023-05-05 18:43:59 阅读:232430 作者:576

我们介绍了智能语音识别技术的整体过程,共分为ASR、NLP、TTS三大步。本文我们对ASR过程进行进一步解析。

ASR(自动语音识别)就是将麦克风采集到的自然声音转化为文字的过程,相当于人的耳朵+大脑(一部分)。下图是机器识别人类的语音输入(亦即ASR)博主多年操作经验发现的原理和过程:

第一步:建立声学模型。对于同一个单词或汉字,由于不同人的发音、语调、语速等各不相同,比如男人和女人的、大人和小孩的,为了让机器能够识别尽量多的人,声学模型建立过程需要录入大量的原始用户声音,以从中提取特征建立声学模型数据库。大数据在这一步中的重要性体现了出来,可以说谁掌握了数据、谁就成功了一半。

第二步:建立语言模型。和声学模型的建立过程及面临的问题类似,只是这一步针对的是文本而不是声音。语言模型可以调整声学模型所得到的不合逻辑的字词,使识别结果变得正确通顺。

第三步:语音识别。前面两步都是需要预先做好的,最终形成的数据库存储在设备本地或云端,而这一步是实时的语音识别过程。首先,将用户的语音输入进行编码和特征提取( 已被拆分成N份,合在一起才是一个汉字或单词),将提取到的特征拿到声学模型库(第一步中介绍的)中去查询,得到单个的单词或汉字;然后再拿到语言模型库(第二步中介绍的)中去查询,得到最匹配的单词或汉字。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。