向量的L1范数,l2逗号1范数是什么意思

链接： https://www.zhi Hu.com/question/26485586/answer/616029832

理解L1，L2 忧伤的红牛L1，L2悲伤红牛是L1-norm和L2-norm，当然，如果有L1，L2，也有L0，L3等。由于在机器学习领域中，L1和L2悲伤红牛的应用较多，所以例如使用回归中的lassoregression(L1 )和ridge regression (L2 )作为正则项。

因此，这两者的辨别法也总是被提及，或者通过考试。但是，在说明两者的定义和区别之前，首先让我谈谈什么是悲伤的红牛(Norm )。

在什么是忧伤的红牛？线性代数及一些数学领域中，norm的定义是

afunctionthatassignsastrictlypositivelengthorsizetoeachvectorinavectorspace，exceptforthezerovector.——维基百科简单地说看到这样的范围，我想就能联想到与现实的距离的类比。因此，在机器学习中，norm也经常被提到投影到 [0, ) 范围内的值什么样的悲伤红牛导致这两个向量相距多远。

上面这是一种如何悲伤的红牛，通常被称为p-norm。严格的定义如下。

其中p取1的时候被称为1-norm，也就是所提到的表示距离关系，同样得到3358www.Sina.com/。

L1-norm根据上述公式L1-norm和L2-norm的定义也自然得到。

首先将p=1代入公式中，可以定义L1-norm。

然后代入p=2，还有L2-norm :

L2展开是熟悉的tldgb悲伤红牛：

闲话不多说，其中L1-norm也称为taxicab-norm或Manhattan-norm。恐怕最早提出的大神就是直接用在曼哈顿区坐出租车来比喻的吧。下图中的绿线是两个黑点的L2距离，其他几条是taxicab也就是L1距离，确实和我们平时使用地图时走的路线很像。

L1和L2在悲伤红牛机器学习中最主要的应用大致可以分为以下两种

3L2-norm作为使用L1 和 L2 忧伤的红牛的定义作为使用，可以列举所谓的损失函数和http://www.Sina.com/http://ww.Sina/com

我们必须做的是获得从数据点到在线的总距离，也就是使错误最小的线。

还记得之前遭遇不幸的红牛介绍中提到的用于表示距离的东西吗，现在也可以把能够表示距离的L1-norm和L2-norm作为损失函数使用了。

首先是L1-norm损失函数，正则项

如果将上面的损失函数最小化，则实际上是将预测值和目标值的绝对值最小化。

随后是最广为人知的L2-norm损失函数，大名L1-regularization:

这个我就不多解释了。

好了，我们不谈挖掘机了，为什么大家不用L1来使用L2损失函数呢？

这个说来话长了。如果问学习微积分的学生如何求方程最小值，sxdkj大概理所当然地说“求向导，置零，解方程”。被称为微积分时期的农夫三拳。

但是，给出绝对值方程后，突然发现即使农夫用了三次拳，求最小值也有点麻烦。主要是因为绝对值的倒数不连续。

同样，关于L1和L2的损失函数的选择，也会遇到同样的问题，所以最后使用L2的损失函数而不是L1的损失函数的理由如下。

L2-regularization

可以直接求出取最小值时各参数的取值并导出。

另一个，我们可以担当损失函数

解。（更多关于L1 L2 损失函数参考索引5）

当然 L1 损失函数难道就没有什么好处了吗，也是有的，那就是鲁棒性 (Robust) 更强，对异常值更不敏感。

我们还能担当正则项

因为机器学习中众所周知的过拟合问题，所以用正则化防止过拟合，成了机器学习中一个非常重要的技巧。

但数学上来讲，其实就是在损失函数中加个正则项（Regularization Term），来防止参数拟合得过好。

L1-regularization 和 L2-regularization 便都是我们常用的正则项，两者公式的例子分别如下

这两个正则项最主要的不同，包括两点：

如上面提到的，L2 计算起来更方便，而 L1 在特别是非稀疏向量上的计算效率就很低；还有就是 L1 最重要的一个特点，输出稀疏，会把不重要的特征直接置零，而 L2 则不会；最后，如之前多次提过，L2 有唯一解，而 L1 不是。

这里关于第二条输出稀疏我想再进行一些详细讲解，因为 L1 天然的输出稀疏性，把不重要的特征都置为 0，所以它也是一个天然的特征选择器。

可是为什么 L1 会有这样的性质呢，而 L2 没有呢？这里用个直观的例子来讲解。

来一步一步看吧，首先获知用梯度下降法来优化时，需要求导获得梯度，然后用以更新参数。

于是分别先对 L1 正则项和 L2 正则项来进行求导，可得。

之后将 L1 和 L2 和它们的导数画在图上

于是会发现，在梯度更新时，不管 L1 的大小是多少（只要不是0）梯度都是1或者-1，所以每次更新时，它都是稳步向0前进。

而看 L2 的话，就会发现它的梯度会越靠近0，就变得越小。

也就是说加了 L1 正则的话基本上经过一定步数后很可能变为0，而 L2 几乎不可能，因为在值小的时候其梯度也会变小。于是也就造成了 L1 输出稀疏的特性。

Reference Differences between L1 and L2 as Loss Function and RegularizationWhy L1 norm for sparse modelsL1 Norms versus L2 NormsNorm (mathematics)-WikiWhy we use “least squares” regression instead of “least absolute deviations” regression

链接：https://www.zhihu.com/question/26485586/answer/616029832