交叉熵和二值交叉熵,最小化交叉熵损失

一、首先了解交叉熵是什么？1

二、这个就是多分类中的交叉熵损失函数。

三、而二分类中的交叉熵损失一般写成这样：1

四、看起来二分类和多分类为什么不一样?

貌似不一样，二分类为什么多一项?主要是one-hot向量搞得鬼！
如果按多分类中的one-hot，其实是：
0:[1,0]
1:[0,1]
但是二分类，一个维度的数就可以直接区别两个类别，不需要两个维度。所以使用多分类的交叉熵公式，用第一个维度代替第二个维度就成了我们看到的二分类交叉熵损失函数。现在知道二类中，那个 ( 1 − y ) l o g ( 1 − y ^ ) (1-y)log(1-hat{y}) (1−y)log(1−y^)是从哪里来的把。

五、多分类不同的写法

第一种
R ( w ) = − 1 N ∑ n = 1 N ∑ c = 1 C y c ( n ) l o g ( y ^ c ( n ) ) R(w)=-frac{1}{N} sum_{n=1}^{N}sum_{c=1}^{C} y_{c}^{(n)} log(hat{y} _{c}^{(n)}) R(w)=−N1∑n=1N∑c=1Cyc(n)log(y^c(n))
第二种：
R ( w ) = − 1 N ∑ n = 1 N y ( n ) l o g ( y ^ ( n ) ) R(w)=-frac{1}{N} sum_{n=1}^{N} y^{(n)} log(hat{y}^{(n)}) R(w)=−N1∑n=1Ny(n)log(y^(n))
第二种是则么回事？还记得one-hot吗？就是他搞的鬼！
第二种 y ( n ) y^{(n)} y(n)代表第n个像素的label。这里暗含的是，one-hot！仅有一个为1，其余的全为0！当然如果不满足这个条件，使用第一个就行。

六、群追不舍，什么时候不满足多分类第二种写法

带有温度的softmax函数，当T较大时，即softmax软化较大时，one-hot不满足。2

https://nndl.github.io/ ↩︎ ↩︎

https://www.jianshu.com/p/cb93d5e39bca ↩︎