一种自动、轻松地找到数据点最佳统计分布的方法。之后，如何进一步扩展该应用工具。

我们的目标是什么？

。

有几个数据点。数字很好。然后，我想调查那些可能来自哪个统计分布。经典统计推理问题。

当然，有实现这个目标的严密统计方法。但是，你可能是个忙碌的数据科学家。或者，更忙碌的软件工程师偶然得到了这个数据集，并迅速创建了APP端点以找到最适合数据的分布。这样，另一个机器学习APP应用程序就可以使用基于该分布生成的合成数据。

简单来说，因为手头没有多少时间，所以我们想寻找快速的方法来找出数据可能来源的最佳匹配分布。

基本上，我们希望对多个分布执行自动化的拟合优度(GOF )测试，并即时总结结果。

当然，您可以使用Scipy库从头开始编写代码，通过标准的GOF测试运行数据，然后对多个版本逐个运行。

或者，也可以使用这个小而有用的Python库——distfit来执行繁重的工作。

Distfit — 自动拟合数据分布的 Python 库

据他们的网站介绍，distfit是一个用于单变量分布概率密度拟合的Python软件包。使用残差平方和(RSS )和GOF的其他测量值，确定89个理论分布的最佳拟合。

让我们看看它的使用方法。这是演示笔记本。

像往常一样安装，

pip install -U distfit生成测试数据并进行拟合

生成一些正态分布的测试数据，并将它们与distfit对象拟合。

基本上，我们希望对多个分布执行自动化的适应性(GOF )测试，并即时总结结果

那么，合身吗？

请注意，在上面的代码中，模型dist1不知道分布或其参数，即生成正态分布的loc或比例参数，也不知道调用np.random.normal生成数据的事实。

可以用简单的代码一次性测试拟合优度和估计参数

dist1.plot(Verbose=1)这是预期的方案(请注意，方案因生成数据的随机性而异。

请注意在绘图副标题的拟合过程中估计的loc和scale参数。和我们以前设定的参数值非常接近，对吧？估计的分布类型显示为范数，即正态分布。

拟合模型详细信息

另一个单行代码可以检索匹配数据(内部)并测试所有匹配性分布的摘要。

dist1.摘要

你会得到这样的东西

这显示了使用特定数据测试的各种分布的所有参数。它还显示了表示符合性的分数——预期数据和给定数据之间的距离。也就是说，越低越好。请注意，在这个模型中，多个分布具有相同的0点。但在内部逻辑下，正态分布被选为最合理的分布。

为什么在这个摘要中只有 10 个分布？

是因为默认情况下使用10个最受欢迎的版本的列表进行扫描。可以在初始化时将准确的列表指定为distfit对象的参数。

在内部使用Scipy

输入dist1.distributions后，将显示用于从Scipy包进行匹配过程的函数列表。

不限于拟合，生成合成数据

distfit模型提供API作为附加组件，并基于最佳拟合分布轻松生成数据。在这里，如上所述，生成了10个loc=5.5和scale=9.79的随机变量。

om=pc">

您必须注意的事项

如果两个或多个分布的数据形状之间存在很多相似性，则估计可能是错误的。特别是，如果样本量（训练数据）很小。

例如，让我们从 Beta 分布中生成一些数据，并选择参数，使其看起来几乎像正态分布。如果我们选择参数 α 和 β 相等或接近，我们就可以做到这一点。然后，如果您拟合 1000 个数据点，您可能会得到正态分布作为最佳拟合分布。

但是，如果您将其扩展到 10,000 点样本量，您很可能会得到正确的答案。

你可以做的其他事情

您可以选择哪种统计检验（RSS、Kolmogorov-Smirnov 等）用于确定最佳拟合。

您还可以指定要运行的确切分发列表。

您可以使用 distfit.predict 方法来预测响应变量的概率。

我们只展示了连续分布拟合的例子。您也可以对离散分布进行拟合。

为什么这是“生产数据科学”的一个例子？

我认为使用诸如 distfit 之类的实用程序包是进行高效数据科学的主要示例。

我在这篇文章中写过什么是高效的数据科学。从本质上讲，这意味着以更高的速度、稳健的方式进行相同的数据科学活动。

Why and how should you learn “Productive Data Science”?

What is Productive Data Science and what are some of its components?

medium.com

您可以使用 Scipy 函数从头开始编写纯 Python 代码，以循环遍历各种分布并为您拥有的数据运行 GOF 测试。但是，当有人已经为完全相同的任务编写了一个优秀的库（带有高质量的文档）时，为什么还要浪费时间呢？

这就是为什么当您想要将单变量数据拟合到最佳分布并一次性获得所有统计属性时，您可以考虑使用 distfit。

excel一列数统计分布(Excel表格怎么统计数据分布)

我们的目标是什么？

Distfit — 自动拟合数据分布的 Python 库

为什么在这个摘要中只有 10 个分布？

为什么这是“生产数据科学”的一个例子？