首页 > 编程知识 正文

向量的L1范数,l2逗号1范数是什么意思

时间:2023-05-03 06:05:01 阅读:160306 作者:3089

链接: https://www.zhi Hu.com/question/26485586/answer/616029832

理解L1,L2 忧伤的红牛L1,L2悲伤红牛是L1-normL2-norm,当然,如果有L1,L2,也有L0,L3等。 由于在机器学习领域中,L1和L2悲伤红牛的应用较多,所以例如使用回归中的lassoregression(L1 )和ridge regression (L2 )作为正则项。

因此,这两者的辨别法也总是被提及,或者通过考试。 但是,在说明两者的定义和区别之前,首先让我谈谈什么是悲伤的红牛(Norm )。

什么是忧伤的红牛?线性代数及一些数学领域中,norm的定义是

afunctionthatassignsastrictlypositivelengthorsizetoeachvectorinavectorspace,exceptforthezerovector.——维基百科简单地说看到这样的范围,我想就能联想到与现实的距离的类比。 因此,在机器学习中,norm也经常被提到投影到 [0, ) 范围内的值什么样的悲伤红牛导致这两个向量相距多远。

上面这是一种如何悲伤的红牛,通常被称为p-norm。 严格的定义如下。

其中p取1的时候被称为1-norm,也就是所提到的表示距离关系,同样得到3358www.Sina.com/。

L1-norm根据上述公式L1-norm和L2-norm的定义也自然得到。

首先将p=1代入公式中,可以定义L1-norm。

然后代入p=2,还有L2-norm :

L2展开是熟悉的tldgb悲伤红牛:

闲话不多说,其中L1-norm也称为taxicab-norm或Manhattan-norm。 恐怕最早提出的大神就是直接用在曼哈顿区坐出租车来比喻的吧。 下图中的绿线是两个黑点的L2距离,其他几条是taxicab也就是L1距离,确实和我们平时使用地图时走的路线很像。

L1和L2在悲伤红牛机器学习中最主要的应用大致可以分为以下两种

3L2-norm作为使用L1 和 L2 忧伤的红牛的定义作为使用,可以列举所谓的损失函数和http://www.Sina.com/http://ww.Sina/com

我们必须做的是获得从数据点到在线的总距离,也就是使错误最小的线。

还记得之前遭遇不幸的红牛介绍中提到的用于表示距离的东西吗,现在也可以把能够表示距离的L1-norm和L2-norm作为损失函数使用了。

首先是L1-norm损失函数,正则项

如果将上面的损失函数最小化,则实际上是将预测值和目标值的绝对值最小化。

随后是最广为人知的L2-norm损失函数,大名L1-regularization:

这个我就不多解释了。

好了,我们不谈挖掘机了,为什么大家不用L1来使用L2损失函数呢?

这个说来话长了。 如果问学习微积分的学生如何求方程最小值,sxdkj大概理所当然地说“求向导,置零,解方程”。 被称为微积分时期的农夫三拳。

但是,给出绝对值方程后,突然发现即使农夫用了三次拳,求最小值也有点麻烦。 主要是因为绝对值的倒数不连续。

同样,关于L1和L2的损失函数的选择,也会遇到同样的问题,所以最后使用L2的损失函数而不是L1的损失函数的理由如下。

L2-regularization

可以直接求出取最小值时各参数的取值并导出。

另一个,我们可以担当损失函数

解。(更多关于L1 L2 损失函数参考索引5)

当然 L1 损失函数难道就没有什么好处了吗,也是有的,那就是鲁棒性 (Robust) 更强,对异常值更不敏感

我们还能担当正则项

因为机器学习中众所周知的过拟合问题,所以用正则化防止过拟合,成了机器学习中一个非常重要的技巧。

但数学上来讲,其实就是在损失函数中加个正则项(Regularization Term),来防止参数拟合得过好。

L1-regularization 和 L2-regularization 便都是我们常用的正则项,两者公式的例子分别如下

 

 

这两个正则项最主要的不同,包括两点:

如上面提到的,L2 计算起来更方便,而 L1 在特别是非稀疏向量上的计算效率就很低;还有就是 L1 最重要的一个特点,输出稀疏,会把不重要的特征直接置零,而 L2 则不会;最后,如之前多次提过,L2 有唯一解,而 L1 不是。

这里关于第二条输出稀疏我想再进行一些详细讲解,因为 L1 天然的输出稀疏性,把不重要的特征都置为 0,所以它也是一个天然的特征选择器

可是为什么 L1 会有这样的性质呢,而 L2 没有呢?这里用个直观的例子来讲解。

来一步一步看吧,首先获知用梯度下降法来优化时,需要求导获得梯度,然后用以更新参数。

 

于是分别先对 L1 正则项和 L2 正则项来进行求导,可得。

 

 

之后将 L1 和 L2 和它们的导数画在图上

 

 

于是会发现,在梯度更新时,不管 L1 的大小是多少(只要不是0)梯度都是1或者-1,所以每次更新时,它都是稳步向0前进。

 

而看 L2 的话,就会发现它的梯度会越靠近0,就变得越小。

 

也就是说加了 L1 正则的话基本上经过一定步数后很可能变为0,而 L2 几乎不可能,因为在值小的时候其梯度也会变小。于是也就造成了 L1 输出稀疏的特性。

Reference Differences between L1 and L2 as Loss Function and RegularizationWhy L1 norm for sparse modelsL1 Norms versus L2 NormsNorm (mathematics)-WikiWhy we use “least squares” regression instead of “least absolute deviations” regression

链接:https://www.zhihu.com/question/26485586/answer/616029832

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。