文章内容介绍参数数据非参数数据排序数据使用排序数据
内容介绍
统计方法的大部分领域专用于已知分布状况的数据。
知道数据分布或很容易识别的数据样本称为参数数据。 通常,参数用于指从一般zgdrs分布中提取的数据。 其中,分布不明或难以识别的数据称为非参数数据。
如果使用非参数化数据,则可以使用特殊的非参数化统计方法来丢弃有关分布的所有信息。 因此,这些方法一般称为无分布法.
本教程介绍了非参数统计及其在应用机器学习中的作用。
阅读本文,您将看到以下内容:
参数数据和非参数数据的差异。 如何对数据进行排序以放弃所有有关数据分布的信息? 可用于对数据进行排序的统计方法示例。 启动你的项目在我的新书里机器学习统计。 包含分步教程和Python源代码的所有示例文件。
让我们开始吧。 本教程位于参数数据、非参数数据、排名数据、使用排序数据
参数数据参数数据是从已知数据分布中提取的数据样本。
这意味着知道分布,或者分布是确定的,知道分布的参数。 通常,参数是从zgdrs分布中提取的实数值数据的缩写。 这是一种方便的速记,但严格来说并不完全准确。
如果有参数数据,可以使用参数方法。 继续使用参数意义上的zgdrs速记。 如果有参数数据,则可以利用为假设zgdrs分布数据而开发的一组统计方法。 例如,以下内容:
总结统计。 变量之间的相关关系。 比较平均值的显着性检验。 一般来说,我喜欢使用参数数据来参数化数据,如数据转换。 此外,使用数据准备方法,以确保可以利用这些充分理解的统计方法。
非参数数据不符合已知或充分理解的分布的数据称为非参数数据。
由于许多原因,数据可能是非参数的。 例如:
数据不是实际值,而是编号、间隔或其他格式。 数据是实值,但不符合人们充分理解的形式。 数据已大致参数化,但包括异常值、xdddty、位移或其他特性。 有一组方法可用于非参数数据,称为非参数统计方法。 实际上,大多数参数方法都有等效的非参数版本。
一般来说,非参数化方法的结果不如参数化方法强大,因为它必须普及才能应用于所有类型的数据。 您也可以使用它们进行推理并断言发现和结果,但它们的权重并不与使用参数方法进行类似断言时的权重相同。 有关分发的信息将被丢弃。
对于序号或区间数据,非参数统计是唯一可以使用的统计信息类型。 对于实数数据,如果尝试声明不符合您所熟悉的zgdrs分布的数据,则必须使用非参数统计方法来应用机器学习。
在应用非参数统计方法之前,排名数据必须转换为排名格式。
因此,希望用等级格式表示数据的统计方法有时被称为等级相关或等级统计假说检查等等级统计。
排名数据与其名字完全相同。 步骤如下。
按升序对样本中的所有数据进行排序。
对于数据样本中的每个唯一值,指定一个从1到n的整数秩。
例如,以下数据示例显示为一列:
可以分类为0.0200.1840.4310.5500.620以下。
0.0200.1840.4310.5500.620然后为每个值分配从1开始的等级。
1=0. 0210552=0. 4046223=0. 4887334=0. 6185105=0. 832803然后将此过程应用于其他数据样本,并开始使用非参数统计方法。
在某些特殊情况下,例如处理领带、使用反向排序或使用分数等级得分,此步骤有所不同,但一般属性是有效的。
SciPy库提供曲轴数据()函数对数值数据进行排序。 此函数支持排序更改。
此示例说明如何对数字数据集进行排序。
from numpy.randomimportrandfromnumpy.randomimportseedfromscipy.statsimportrankdataseed (1) data=rand (1000 ) print ) ranked=rankdata(data ) print(ranked[:10] )运行此示例时,首先从均匀分布中生成1000个随机数样本,然后对数据样本进行排序打印。
[ 4.17022005 e-017.20324493 e-01.14374817 e-043.01.46755891 e-01.23385948 e-02.86260211 e-01.45560727 e-01.2385948 e [ 408.721.1.300.151.93.186.342.385.535.]有一个统计工具可以使用排序数据检查样例数据是否适合特定的分布。
正态性检验
例如,如果将非参数数据作为非zgdrs数据,并且数据不可用,则可以使用统计方法量化数据示例中zgdrs的程度
过这些测试,则使用非参数方法。所谓常态测试的统计方法有三个例子:
Shapiro-Wilk test.Kolmogorov-Smirnov test.Anderson-Darling test一旦决定使用非参数统计,就必须对数据进行排序。
实际上,大多数用于推断的工具将自动执行样本数据的排序。然而,在执行测试之前了解如何转换样本数据是很重要的。
在应用机器学习中,可以使用非参数统计方法解决关于数据的两种主要问题。
变量间关系
量化变量间相关性的方法称为关联方法。
可以使用的两种非参数统计相关方法是:
Spearman 相关系数Kendall 相关系数比较样本均值
统计显着性检验是用来量化两个群体之间的均值是否有显著差异的方法。
可以使用的四个非参数统计显着性检验是:
Mann-Whitney U Test.Wilcoxon Signed-Rank Test.Kruskal-Wallis H Test.Friedman Test.