首页 > 编程知识 正文

余弦距离和欧式距离,余弦相似度归一化

时间:2023-05-04 11:02:19 阅读:9409 作者:2261

前几天做数据分析笔的问题时,在上面问了lydhl距离和余弦距离的区别,但不太清楚。 因此,在这里学习总结这个知识点。:文本转载: https://庄兰. zhi Hu.com/p/84643138

一.余弦距离

简单地说,余弦相似度是计算两个向量间的夹角的余弦值余弦距离,是用1减去该距离得到的余弦相似度。

从上面的余弦距离可以看出,它是余弦距离的取值范围为[0,2],满足非阴性性质。

二、欧式距离欧式距离是常用的距离计算公式:

三、两者的关系当向量的模长是经过归一化的,此时lydhl距离与余弦距离有着单调的关系

在此情况下,如果选择距离最小(相似度最大)的邻居,则使用余弦相似度和lydhl距离的结果相同。

四.用余弦距离是什么时候用欧式距离? 总体而言,lydhl距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异

1 )例如,若累计两个电视剧中的用户的观看行为,则用户a的观看矢量为(0,1 ),用户b为) 1,0 ); 此时,两者余弦距离大,而lydhl距离小; 我们应该分析两个用户对不同视频的偏好,关注相对差异,明显使用余弦距离。这里的观看向量为0(没有观看),1(观看)。此类的统计与具体的数值无关,比如观看时长,观看次数等。因此为了体现方向上的差异,采用余弦距离。

2 )另一方面,分析用户的活性度,以登录次数(单位)次)和平均视听时间(单位)分)为特征,则馀弦距离被认为(1,10 )、(10,100 )这两个用户的距离近。 但这两个用户的活跃度有明显较大差异,这种情况下应该关注数值的绝对差异,使用lydhl距离。这个例子与上面的不同,更注重的是数量关系,比如登录次数,观看时长等,而不是是否观看。因此,为了体现数值上的差异,采用高lydhl距离。

总结:在日常使用中需要注意区分,余弦距离虽然不是一个严格意义上的距离度量公式,但是形容两个特征向量之间的关系还是有很大用处的。比如人脸识别,推荐系统等

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。