上述一系列变量,即4个变量z1、z2、z3、z4中的任何一个的dddy的值,依赖于其前面的变量z1、z2、dddy1,并且
z2=2z1
z3=3z2 z1
z4=4z3 2z2 z1
E=4z4 2z2
在此定义:
Edddy :目标函数e相对于变量dddy偏微分,
Eddddy :目标函数e对变量dddy的全微分。 例如,
EZ4=EZ4=4
EZ3=EZ3EZ4Z4Z3=16
EZ2=EZ2EZ4z4z2EZ3z3z2=58
EZ1=EZ1EZ4z4z1EZ3z3z1EZ2z2z1=136
综上所述,我们有以下连锁规律[1]
edddy=edddyjitezjzjddyeq.1 traditionalrecurrentneuralnetwork
下图是基本循环神经网络的图像
Fig. 1:循环神经网络示意图
其中,x_t、h_t、y_t分别表示时刻t网络的输入向量、隐藏层向量、输出向量,w_ih、w_ho均为权重矩阵,具体计算公式如下:
xct=[xt,ht1]
ht=(zht )=tanh (wih;xct BIH ) ) ) ) ) ) ) 0
yt=(zot )=soft max (who;htb ho ) ) ) ) ) 0
成本函数采用信息熵形式
c=t=1tk(1y^(t ) k ) log (y ) t ) k )=t=1tc (yt ) ) ) ) ) 65 )
k表示输出层节点的个数,y^表示真正的目标输出。
我们的目标是计算
Cwih
和
世卫组织
即,以将x1、x2、 xT作为输入序列、将y^1、y^2、y^T作为目标输出序列为前提,计算成本函数c对于权重矩阵wih、who的全微分(在此暂时忽略bih、bho ) 为此,首先计算zht和zot。 其中zht和zot分别是图中绿色模块和黄色模块的输入。
根据Fig. 1可知,绿色模块之间存在以下依存关系
那么zhi只依赖于zhi1,根据连锁方程式Eq. 1 :
czht=czhtt ' ttczht ' zht ' zht=czhtczht 1zh t1 zht
然后,
czht=czht=czot;世卫组织((zht ) ) )。
Fig. 1中黄色模块之间的相互依存关系由绿色模块生成,它们之间没有直接的依存关系,因此有以下情况
czot==czotc(yt )) ) zot )
根据以上的3个式,进而可以依次求出t=T1、t2、2、1的时刻的 Czht值。
最终:
CHO=t=1tczotzotwho=t=1TC zot;ht
cwih=t=1tczhtzhtwih=t=1tczht;xct
[1]后台代理hroughtime 3360 whatitdoesandhowtodoit (web )。