首页 > 编程知识 正文

matlab动态神经网络,分三类的神经网络matlab实现

时间:2023-05-05 07:16:17 阅读:155328 作者:3477

本发明涉及发音评估领域,尤其涉及一种基于深度神经网络后验概率算法的口语发音评估方法。

背景技术:

常用的语音评估技术,例如英语口语教学中使用的语音评估,一般采用智能评分技术对学习者的口语进行评估,但目前的智能评分技术主要基于Goodness of pronunciation (goodness of pronce )法。 GOP方法依赖于两个过程,一个是强制定位(Forced Alignment,简称FA ),另一个是自由音素(FP )解码,其中FA需要声学模型和参考文本(即学习者)进行跟随同时得到各个单词的似然性(Likeme ),但是FP解码使用相同的声音,但是解码的单位是音素级别,所以各个音素可以与其它音素大致一致。 理想情况下,即音响模型充分、音素识别率100%正确的情况下,FP解码的音素序列和参照文本扩展的音素序列几乎完全一致,理想情况下,FP解码的音素序列和参照文本扩展的音素序列几乎完全一致, FA和FP译码两个过程最终得到的两个似然差可以作为发音好坏的指标,该差越小表示发音越好,相反发音越差。 然而,由于声学模型通常对音素的识别率较低,所以通过FP解码获得的似然精度也较低,评分结果也不准确。

技术实现要素:

为了解决上述问题,本发明提供了一种基于深度神经网络的后验概率算法的口语发音评估方法。

根据本发明的一个方面,基于深度神经网络后验概率算法的口语发音评估方法包括以下步骤:

a )从语音中选择一定数量的语音,各个语音的单词数在一定范围内;

b )计算各语音中各单词音素的平均似然度;

c )计算各语音中各单词音素的平均EGOP;

d )计算各语音中各单词音素的平均时间长度概率;

e )将各语音中各单词的音素平均似然度、音素的平均EGOP、音素的平均时间长度概率作为输入项目输入人工神经网络评分模型,并输出单词的评分。

本发明中基于深度神经网络后验概率算法的口语发音评价方法,从声学模型的角度出发,采用LSTM建模提高音素识别率,进而比较FA似然和所有类似音素似然,将GOP方法扩展到EGOP方法,实现人工神经

在一些实施例中,选择的音频数量为10000个或更少,并且每个音频的单词数量为1-20个。 由此,可以设定适当的语音数量和长度,选择适合评分工作的样本。

在一些实施例中,音素平均似然度计算方法计算单词中各音素的似然度,并将各似然度的平均值作为音素的平均似然度。 由此,可以计算音素的平均似然度。

在一些实施方式中,音素的平均EGOP的计算方法是计算单词中各音素的似然和FA似然,将两者的差作为音素的似然差,将各单词的音素的似然差的总和作为音素的平均EGOP。 由此,可以计算音素的平均EGOP。

在一些实施例中,音素平均时间概率的计算方法计算单词内的各音素的平均值和方差值,一旦获得各音素的概率分布,就把任意时间信息的各音素的概率的平均值作为音素的平均时间概率,把该概率分布设为wmdttt分布。 由此,可以计算音素的平均时间长度概率。

一些实施例还包括: f )训练多个人工神经网络评分模型,对各个语音评分。 的精度来评分单词,以各人工神经网络评分模型评分的平均分作为单词的最终分数。 这样就可以通过两次评分进一步优化语音及其各个单词的评分结果。

在一些实施方式中,还包括以下步骤。 g )根据每个单词的得分计算音频的得分。 这样,根据需要,通过选择合适的计算方式计算各单词的最终得分,就可以得到语音整体的得分。

图纸的说明

图1是作为本发明一个实施方式的基于深度神经网络后验概率算法的口语发音评价方法的人工神经网络评分模型的结构图

图2是示出基于图1所示深度神经网络后验概率算法的口语发音评价方法的音响模型的LSTM的cell结构的图。

具体实施方式

以下将参考附图来详细说明本发明。

在使用根据本发明的基于深度神经网络后验概率算法的口语发音评估方法时,首先,从一个或多个要被评估的相关语音中选择一定数量的语音。 其中,声音的数量优选为10000个以下,各声音的单词数量被限制在一定的范围内,优选为1-20个,其中各单词中包含多个音素。

假定单词w中含有k个音素,设定为{P1,P2,…Pk},其中各音素的似然度设定为loglik(Pi )。 用于通过常规goodnessofpronunciation (goodnessofpronunciation )方法测量发音的特征是对数似然(log lik ),其是由FA过程获得的FA的平均似然和FP解码过程获得的其中包括loglik(numerator为FA的平均似然,loglik(denominator为FP的平均似然,用于计算平均值的时间边界为根据FA得到的时间边界。

图1示意性地表示根

据本发明的一种实施方式的基于深度神经网络后验概率算法的口语发音评测方法的人工神经网络打分模型的结构。如图1所示,该结构中,需要计算出每个单词的音素的平均似然度(avg loglik)、音素的平均EGOP(avg egop)和音素的平均时长概率(avg durationprob),并将这三项作为输入项输入到人工神经网络打分模型,得到对单词的打分,从而能够进一步计算出对音频乃至对整个语音的打分。

音素的平均似然度的计算方法为:计算单词中的各个音素的似然度,并取各个似然度的平均值为音素的平均似然度。例如:对于含有k个音素{P1,P2,…Pk}的单词W,其中各音素的似然度为loglik(Pi),则音素的平均似然度为loglik(W)=Σk i=1loglik(Pi)/k。

而音素的平均EGOP的计算方法为:计算单词中的各个音素的似然度和FA似然度,取将两者的差并设为各个音素的似然差,并取各个音素的似然差的总和为音素的平均EGOP。例如:对于含有k个音素{P1,P2,…Pk}的单词W,其中各音素的似然度为loglik(Pi),而各音素的FA似然度为loglik(Pj),则各个音素的似然差为diffloglik(Pj i),而音素的平均EGOP为egop(Pi)=Σkj=1diffloglik(Pj i)/k。该方法是在传统的GOP中计算似然差的方法上进行了改进,故称为EGOP(Extended GOP)。

音素的平均时长概率,也可称为音素的时长标准差,其计算方法为:每个音素在使用声学模型进行识别时均可计算出一个均值和方差,从而使每个音素均得到一个概率分布,该概率分布优选为wmdttt分布;则对于任意一个时长信息,都可以计算出其在该音素下的概率,而音素的平均时长概率即为各时长信息在各音素下的概率的平均值。例如:对于含有k个音素{P1,P2,…Pk}的单词W,其中任意一个时长信息在各音素下的概率为durlik(Pi),则音素的平均时长概率为durlik(W)=Σk i=1durlik(Pi)/k。

在计算出音素的平均似然度、音素的平均EGOP和音素的平均时长概率后,将这三项作为输入项输入到人工神经网络打分模型中,而人工神经网络打分模型的输出就是单词的分数,其中,训练人工神经网络打分模型时使用了BP算法,并采用MSE作为损失函数,将机器预测分数和人工分数之间的差异作为误差函数。

图2显示了图1中的深度神经网络后验概率算法的口语发音评测方法的声学模型的LSTM的cell结构。如图2所示,LSTM(Long Short-Term Memory)是循环神经网络的一种,它的节点是一种特殊的cell结构,核心的cell单元通过权重矩阵与输入门(input gate)、输出门(output gate)以及遗忘门(forget gate)相连接,可以选择性的保留信息或者遗忘信息,并使信息可以沿着中心的cell一直传递下去。在训练过程中,音频特征采用的是40维MFCC,左右各扩5帧,一共440维。首先训练wmdttt混合模型(GMM)并使用其做FA切分得到每一帧对应的概率密度函数(Probability Density Function)id,然后,则以这些概率密度函数id作为LSTM的输出标签训练模型。

本发明中的声学模型采用的是两层LSTM建模,其中每层LSTM的节点个数为512。该声学模型能够有效提升音素识别率,使音素级别的识别率比传统DNN模型相对提升30%左右。

此外,为了减小打分的误差,提高评测的准确性,还可以训练多个人工神经网络打分模型,并使用这些模型分别对每条音频进行打分,一般情况下训练两个模型即可。打分的精确度到单词,并取各人工神经网络打分模型的打分的平均分作为单词的最终分数。然后,在需要的情况下,选取合适的算法,根据各单词的最终分数计算出音频的分数,以及进一步地,根据各音频的分数计算出整个语音的分数。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。