relu和leaky relu的对比实验,深度学习像算法面试

问题

ReLU函数在0处不可导，为什么在深度学习网络中还这么常用?

问题背景

这是在阿里的机器学习岗一面的时候问的一个问题，最开始的问题是“为什么机器学习中解决回归问题的时候一般使用平方损失（即均方误差）？”。

当时我的回答是损失函数是是模型预测值与真实值之间的一种距离度量，我们可以计算出每个样本的预测值与真实值之间的距离，全部加起来就得到了所谓的损失函数。而距离的度量可以采用预测值与真实值之间差的绝对值，或者两者之差的平方，当然更高次的也行，只要你喜欢。正如问题所述，为什么我们一般使用的是两者之差的平方而不是两者只差的绝对值呢？其实这与模型的求解相关，举最简单的线性回归为例，如果采用的距离是两者之差的绝对值，那么求解的目标函数如下：
( ω ∗ , b ) = a r g m