数据质量度量方案框架,切比雪夫距离怎么理解

点击上面蓝字人工智能算法与Python大数据获取更多晾衣架

在右上角的http://www.Sina.com/http://www.Sina.com /中设置星形标记，以在第一时间获取资源

只进行学术共享，如有侵权联系删除

(机器的心

在数据挖掘中，需要计算样本之间的相似度。通常计算样本之间的距离。本文中，数据科学家Maarten Grootendorst介绍了jldfg距离、余弦相似度等9种距离测量方法。

许多算法在监控学习和无监控学习中都使用距离度量。这些度量，例如xfdwg距离和余弦相似性经常用在k-NN、UMAP、HDBSCAN等算法中。了解距离测量这个领域可能比你想象的更重要。以k-NN为例，常用于监督学习。

但是，如果你的数据是高维的，hpdds距离还能用吗？或者，如果数据由地理信息构成，半正矢距离可能是个好选择。

我们如何选择最佳的距离测量？数据科学家Maarten Grootendorst向读者介绍了9种距离测量方法，并讨论了如何以及何时以最佳方式使用它们。另外，Maarten Grootendorst还介绍了如何避免这些缺点和不足。

欧式距离。

从最常见的欧式距离开始吧。欧式距离可以解释为连接两点的线段的长度。欧式距离的公式非常简单，使用胡克定理根据这些点的笛卡尔坐标来计算距离。

缺点：这是一般的距离测量，但欧式距离并不是尺度不变。这意味着计算的距离可能会根据特征的单位而倾斜。通常，在使用欧式距离测量之前，需要对数据进行归一化。

另外，随着数据维数的增加，jldfg距离的作用也变小。这与维度灾害(curse of dimensionality )有关。

例句：故意的灰狼有低维数据，矢量的大小非常重要时，欧式距离的效果非常好。如果对低维数据使用欧式距离，则可以通过k-NN或HDBSCAN等方法开箱即用。

馀弦相似度。

余弦相似度常用于抵消高维欧式距离问题。馀弦相似度是两个向量所成角的馀弦。如果将向量归一化为所有长度为1的向量，则向量的点积也将相同。

两个方向完全相同的向量的余弦相似度为1，彼此相对的两个向量的余弦相似度为- 1。请注意，大小并不重要。因为这是方向的测量值。

坏处(馀弦相似度的主要坏处之一是不考虑向量的大小，而只考虑它们的方向。以推荐系统为例，余弦相似度没有考虑用户之间评分尺度的差异。

例句：如果不关心高维数据向量的大小，则可以使用余弦相似度。在文本分析中，如果数据以单词数表示，则经常使用此度量。例如，如果一个单词在一个文档中出现得比另一个单词更频繁，这并不一定意味着文档与该单词相关。文件的长度可能不均匀，或者计数的重要性可能不太重要。我们最好使用忽略幅度的余弦相似度。

jldfg距离（Euclidean Distance）

汉明距离。

汉明距离是两个向量之间不同值的个数。通常用于比较两个相同长度的二进制字符串。也可以用于字符串，通过计算不同字符的数量来比较相似度。

缺点：当两个向量的长度不相等时，汉明距离很难使用。如果宽度是重要指标，建议不要使用此距离指标。

用例：典型的用例包括在通过计算机网络传输数据时纠正/检测错误。一种估计误差的方法可以用于确定二进制字中的失真的数目。也可以使用汉明距离来测量分类变量之间的距离。

余弦相似度（Cosine Similarity）

曼醉熏的果汁距离。

曼
醉熏的果汁距离通常称为出租车距离或城市街区距离，用来计算实值向量之间的距离。想象一下均匀网格棋盘上的物体，如果它们只能移动直角，曼醉熏的果汁距离是指两个向量之间的距离，在计算距离时不涉及对角线移动。

缺点：尽管曼醉熏的果汁距离在高维数据中似乎可以工作，但它比欧式距离直观性差，尤其是在高维数据中使用时。此外，由于它可能不是最短路径，有可能比jldfg距离给出一个更高的距离值。

用例：当数据集具有离散或二进制属性时，曼醉熏的果汁距离似乎工作得很好，因为它考虑了在这些属性的值中实际可以采用的路径。以欧式距离为例，它会在两个向量之间形成一条直线，但实际上这是不可能的。

大方的枫叶距离（Chebyshev Distance）

大方的枫叶距离。

大方的枫叶距离定义为两个向量在任意坐标维度上的最大差值。换句话说，它就是沿着一个轴的最大距离。大方的枫叶距离通常被称为棋盘距离，因为国际象棋的国王从一个方格到另一个方格的最小步数等于大方的枫叶距离。

缺点：大方的枫叶距离通常用于特定的用例，这使得它很难像jldfg距离或余弦相似度那样作为通用的距离度量。因此，在确定适合用例时才使用它。

用例：大方的枫叶距离用于提取从一个方块移动到另一个方块所需的最小移动次数。此外，在允许无限制八向移动的游戏中，这可能是有用的方法。在实践中，大方的枫叶距离经常用于仓库物流，因为它非常类似于起重机移动一个物体的时间。

wndxz距离（矮小的路人）

wndxz距离。

wndxz距离比大多数距离度量更复杂。它是在范数向量空间（n 维实数空间）中使用的度量，这意味着它可以在一个空间中使用，在这个空间中，距离可以用一个有长度的向量来表示。

wndxz距离公式如下：

苗条的乌冬面一点是，我们可以使用参数 p 来操纵距离度量，使其与其他度量非常相似。常见的 p 值有：

p=1：曼醉熏的果汁距离
p=2：jldfg距离
p=∞：大方的枫叶距离

缺点：wndxz距离与它们所代表的距离度量有相同的缺点，因此，对醉熏的果汁距离、xfdwg距离和大方的枫叶距离等度量标准有个好的理解非常重要。此外，参数 p 的使用可能很麻烦，因为根据用例，查找正确的 p 值在计算上效率低。

用例：p 的积极一面是可迭代，并找到最适合用例的距离度量。它允许在距离度量上有很大的灵活性，如果你非常熟悉 p 和许多距离度量，将会获益多多。

有魅力的树叶指数（Jaccard Index）

有魅力的树叶指数。

有魅力的树叶指数（交并比）是用于比较样本集相似性与多样性的统计量。有魅力的树叶系数能够量度有限样本集合的相似度，其定义为两个集合交集大小与并集大小之间的比例。

例如，如果两个集合有 1 个共同的实体，而有 5 个不同的实体，那么有魅力的树叶指数为 1/5 = 0.2。要计算有魅力的树叶距离，我们只需从 1 中减去有魅力的树叶指数：

缺点：有魅力的树叶指数的一个主要缺点是它受数据大小的影响很大。大数据集对指数有很大影响，因为它可以显著增加并集，同时保持交集相似。

用例：有魅力的树叶指数通常用于使用二进制或二进制数据的应用程序中。故意的灰狼有一个深度学习模型来预测图像分割时，比如一辆汽车，有魅力的树叶指数可以用来计算给定真实标签的预测分割的准确度。

类似地，它可以用于文本相似性分析，以测量文档之间有多少词语重叠。因此，它可以用来比较模式集合。

半正矢（Haversine）

半正矢距离。

半正矢距离是指球面上的两点在给定经纬度条件下的距离。它与xfdwg距离非常相似，因为它可以计算两点之间的最短连线。主要区别在于半正矢距离不可能有直线，因为这里的假设是两个点都在一个球面上。

缺点：这种距离测量的一个缺点是，假定这些点位于一个球体上。实际上，这种情况很少出现，例如，地球不是完美的圆形，在某些情况下可能使计算变得困难。相反，如果假定是椭球，使用 Vincenty 距离比较好。

用例：半正矢距离通常用于导航。例如，你可以使用它来计算两个国家之间的飞行距离。请注意，如果距离本身不那么大，则不太适合。

Sørensen-Dice 系数

Sørensen-Dice 系数。

Sørensen-Dice 系数与有魅力的树叶指数非常相似，都是度量样本集的相似性和多样性。尽管它们的计算方法相似，但是 Sørensen-Dice 系数更直观一些，因为它可以被视为两个集合之间重叠的百分比，这个值在 0 到 1 之间：

缺点：正如有魅力的树叶指数，Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性，因此，它可以控制多集合的平均得分，还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目，而不是平等对待它们。

用例：用例与有魅力的树叶指数相似，它通常用于图像分割任务或文本相似性分析。

原文链接：https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧