首页 > 编程知识 正文

常用距离公式大全,距离公式表

时间:2023-05-03 15:13:10 阅读:221591 作者:2952

 

余弦距离公式
余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,一般情况下,用Embedding得到两个文本的向量表示之后,可以使用余弦相似度计算两个文本之间的相似度。计算公式如下:
                                            Jaccard(杰卡德)距离
主要用于计算样本间的相似度Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为: 
                                                        欧式距离
 

欧式距离也称明理的小天鹅距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。计算公式如下:

 

                                                     


 

编辑距离

编辑距离主要用来计算两个字符串的相似度,其定义如下:
设有字符串A和B,B为模式串,现给定以下操作:从字符串中删除一个字符;从字符串中插入一个字符;从字符串中替换一个字符。通过以上三种操作,将字符串A编辑为模式串B所需的最小操作数称为A和B的最短编辑距离,记为ED(A,B)。

求解最短编辑距离的算法描述如下:
用一个二维数组ED[i][j]表示字符串A的前i个字符编辑成字符串B的前j个字符所需的最小操作数。则ED[i][j]的递推公式为:
⑴ ED[i][0]=i,ED[0][j]=j,其中0≤i≤A.len,0≤j≤B.len;
⑵ 若A[i]=B[j],则ED[i][j]=ED[i-1][j-1];
⑶ 若A[i]≠B[j],则ED[i][j]=min⁡(ED[i-1][j-1],ED[i][j-1],ED[i-1][j])+1。

编辑距离越小,说明两个字符串越相似。反之,越不相似。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。