貌似不一样,二分类为什么多一项?主要是one-hot向量搞得鬼!
如果按多分类中的one-hot,其实是:
0:[1,0]
1:[0,1]
但是二分类,一个维度的数就可以直接区别两个类别,不需要两个维度。所以使用多分类的交叉熵公式,用第一个维度代替第二个维度就成了我们看到的二分类交叉熵损失函数。现在知道二类中,那个 ( 1 − y ) l o g ( 1 − y ^ ) (1-y)log(1-hat{y}) (1−y)log(1−y^)是从哪里来的把。
第一种
R ( w ) = − 1 N ∑ n = 1 N ∑ c = 1 C y c ( n ) l o g ( y ^ c ( n ) ) R(w)=-frac{1}{N} sum_{n=1}^{N}sum_{c=1}^{C} y_{c}^{(n)} log(hat{y} _{c}^{(n)}) R(w)=−N1∑n=1N∑c=1Cyc(n)log(y^c(n))
第二种:
R ( w ) = − 1 N ∑ n = 1 N y ( n ) l o g ( y ^ ( n ) ) R(w)=-frac{1}{N} sum_{n=1}^{N} y^{(n)} log(hat{y}^{(n)}) R(w)=−N1∑n=1Ny(n)log(y^(n))
第二种是则么回事?还记得one-hot吗?就是他搞的鬼!
第二种 y ( n ) y^{(n)} y(n)代表第n个像素的label。这里暗含的是,one-hot!仅有一个为1,其余的全为0!当然如果不满足这个条件,使用第一个就行。
带有温度的softmax函数,当T较大时,即softmax软化较大时,one-hot不满足。2
https://nndl.github.io/ ↩︎ ↩︎
https://www.jianshu.com/p/cb93d5e39bca ↩︎