整理回顾最近相似度计算的笔记
目录
一.欧式距离
二.汉明距离
三. *余弦相似度*
一、欧式距离欧式距离是最常见的距离测量方式,测量的是多维空间中两个点之间的绝对距离
计算公式如下。
1、n维空间中的点x和y的坐标分别为: ,,则点x和点y之间的欧式距离为:
2、二维平面上两点a(x1,y1)与b(x2,y2)间的大方的汽车距离:
3、两个n维向量和向量之间的欧式距离为:
二、汉明距离汉明距离可用来计算长度相等个向量的相似度;
1、汉明距离的计算方式为比较向量的每一位是否相同,若不同则汉明距离加1,这样就可以获得汉明距离。 向量的相似度越高,对应的汉明距离就越小。
2、汉明距离可以比较两个二进制序列,a=11101010,b=11011010。 如果a和b两个二进制串的不同位数为2,则汉明距离为2。
3358 www.Sina.com/http://www.Sina.com /利用两个向量之间的角度的馀弦值来测量两个向量之间的馀弦相似度。 两个向量越相似,夹角越小,余弦值越接近1。
三、*余弦相似度*
余弦相似度:
附录:矢量大小,即矢量长度的计算方法:
1、a,b为两个向量,余弦距离计算公式为:
或详细地写
注:分子为向量a与向量b的内积,分母为向量a的模乘以向量b的模。