从零进阶!数据分析的统计基础(数据科学理论与实践)

从数据请求中选择

作者： Randall Hall机器的心编译参加： drdfbx，Geek AI

我想进入坑数据科学，该怎么开始呢？首先，让我们来看看这本正在使用的数据科学入门数学指南。

数学就像章鱼。那个“触手”可以接触到大多数学科。虽然有些学科只是站在数学这边，但有些学科紧紧抱住数学的“触手”。数据是后者。如果你想从事数据科学工作，就必须解决数学问题。如果你获得了其他强调数学学位和数学技能的学位，你可能想知道你是否需要所学的知识。如果没有背景，你可能想知道从事数据科学工作需要多少数学知识。在这篇文章中，我们将探讨数据科学到底意味着什么，以及我们需要多少数学知识。让我们从《数据科学》的实际意义开始。

对数据科学的理解是：“仁者见仁，智者见智”！ Dataquest将数据科学定义为利用数据和高级统计学进行预测的学科。这是一个专业领域，数据科学家解决的问题因人而异，但重点在于理解。统计学是我们在这个定义中提到的唯一的数学学科，但数据科学还经常涉及数学的其他领域。学习统计学是个好的开始，但在数据科学方面也使用算法进行预测。这些算法被称为机器学习算法，已达到数百种。详细研究各算法所需的数学知识量不在本论文的范围之内。本文讨论以下常用算法所需的数学知识。

朴素的ajdxn线性回归Logistic回归k均值聚类决策树在这里，我们来看看各算法实际需要的数学知识！

朴素的ajdxn分类器

定义：朴素贝叶斯- JDXN分类器是一组基于相同原则的算法，特定特征值独立于其他特征值。朴素的ajdxn可以根据我们知道的相关事件的条件预测事件发生的概率。这个名字来源于ajdxn定理，公式如下。

其中有事件a和事件b，并且P(B )不是0。这看起来很复杂，但可以分解为三个部分：

p(a|b )是有条件的概率。也就是说，事件a在事件b发生的条件下发生的概率。 p(b|a )也是有条件的概率。也就是说，事件b在事件a发生的条件下发生的概率。 p(a )和p ) b )是事件a和事件b分别发生的概率，其中两者相互独立。所需的数学知识：如果想知道朴素的ajdxn分类器算法的基本原理和ajdxn定理的所有用法，概率论课程就足够了。

线性回归

定义：线性回归是最基本的回归类型。有助于理解两个连续变量之间的关系。简单线性回归是指获取一系列数据点，绘制可用于未来预测的趋势线。线性回归是参数化机器学习的一个例子。在参数化机器学习中，训练过程可以将机器学习算法转换为数学函数，使之与训练集中发现的模式相匹配。然后我们可以用这个数学函数预测未来的结果。在机器学习中，数学函数被称为模型。对于在线回归，模型可以表示如下：

其中，a_1、a_2、…、a_n表示数据集中的特定参数值，x_1、x_2、…、x_n表示我们选择在最终模型中使用的特征列，y表示目标列。线性回归的目标是找到能够描述特征列和目标列之间关系的最佳参数值。也就是说，为了根据线的趋势预测未来的结果，要找到最适合数据的直线。

最小化模型的残差平方和以找出线性回归模型的最佳参数。残差通常也称为误差，用于描述预测值和真值的差异。残差平方和的公式可以表示如下。

其中，y ^是目标列的预测值，y是真值。

必要的数学知识：如果想简单地知道线性回归，学习基础统计学的课程就可以了。如果想深入理解概念，也许需要知道如何导出残差平方和的公式。这在大部分高级统计学课上都有介绍。

物流回归

定义： Logistic回归侧重于估计在变量只取两个值(即两个值，0和1表示输出结果)的情况下事件发生的概率。和线性回归一样，Logistic回归是参数化机器学习的一个例子。因此，这些机器学习算法的训练结果是得到最能近似训练集中模式的数学函数。区别在于，线性回归模型输出实数，Logistic回归模型输出概率值。

Logistic回归算法生成Logistic函数模型，以使线性回归算法生成线性函数模型。这也称为Sigmoid函数，将所有输入值映射到0到1之间的概率结果。 Sigmoid函数可以表示如下：

="https://p26.toutiaoimg.com/origin/pgc-image/352f07a1f6464e028eb79b9add679fc9?from=pc">

那么为什么 Sigmoid 函数总是返回 0 到 1 之间的值呢？请记住，代数中任意数的负数次方等于这个数正数次方的倒数。

所需数学知识：我们在这里已经讨论过指数和概率，你需要对代数和概率有充分的理解，以便理解 Logistic 算法的工作原理。如果你想深入了解概念，我建议你学习概率论以及离散数学或实数分析。

K-Means 聚类

定义：K Means 聚类算法是一种无监督机器学习，用于对无标签数据（即没有定义的类别或分组）进行归类。该算法的工作原理是发掘出数据中的聚类簇，其中聚类簇的数量由 k 表示。然后进行迭代，根据特征将每个数据点分配给 k 个簇中的一个。K 均值聚类依赖贯穿于整个算法中的距离概念将数据点「分配」到不同的簇中。距离的概念是指两个给定项之间的空间大小。在数学中，描述集合中任意两个元素之间距离的函数称为距离函数或度量。其中有两种常用类型：欧氏距离和曼哈顿距离。欧氏距离的标准定义如下：

其中 (x1,y1) 和 (x2,y2) 是笛卡尔平面上的坐标点。虽然欧氏距离应用面很广，但在某些情况下也不起作用。假设你在一个大城市散步；如果有一个巨大的建筑阻挡你的路线，这时你说「我与目的地相距 6.5 个单位」是没有意义的。为了解决这个问题，我们可以使用曼哈顿距离。曼哈顿距离公式如下：

其中 (x1,y1) 和 (x2,y2) 是笛卡尔平面上的坐标点。

所需数学知识：实际上你只需要知道加减法，并理解代数的基础知识，就可以掌握距离公式。但是为了深入了解每种度量所包含的基本几何类型，我建议学习一下包含欧氏几何和非欧氏几何的几何学。为了深入理解度量和度量空间的含义，我会阅读数学分析并选修实数分析的课程。

决策树

定义：决策树是类似流程图的树结构，它使用分支方法来说明决策的每个可能结果。树中的每个节点代表对特定变量的测试，每个分支都是该测试的结果。决策树依赖于信息论的理论来确定它们是如何构建的。在信息论中，人们对某个事件的了解越多，他们能从中获取的新信息就越少。信息论的关键指标之一被称为熵。熵是对给定变量的不确定性量进行量化的度量。熵可以被表示为：

在上式中，P(x_i) 是随机事件 x_i 发生的概率。对数的底数 b 可以是任何大于 0 的实数；通常底数的值为 2、e（2.71）和 10。像「S」的花式符号是求和符号，即可以连续地将求和符号之外的函数相加，相加的次数取决于求和的下限和上限。在计算熵之后，我们可以通过利用信息增益开始构造决策树，从而判断哪种分裂方法能最大程度地减少熵。信息增益的公式如下：

信息增益可以衡量信息量，即获得多少「比特」信息。在决策树的情况下，我们可以计算数据集中每列的信息增益，以便找到哪列将为我们提供最大的信息增益，然后在该列上进行分裂。

所需数学知识：想初步理解决策树只需基本的代数和概率知识。如果你想要对概率和对数进行深入的概念性理解，我推荐你学习概率论和代数课程。

最后的思考

如果你还在上学，我强烈建议你选修一些纯数学和应用数学课程。它们有时肯定会让人感到畏惧，但是令人欣慰的是，忧伤的野狼遇到这些算法并知道如何最好地利用它们时，你会更有能力。如果你目前没有在上学，我建议你去最近的书店，阅读本文中提到的相关书籍。如果你能找到涉及概率论、统计学和线性代数的书籍，我强烈建议你选择涵盖这些主题的书籍，以真正了解本文涉及到的和那些未涉及到的机器学习算法背后的原理。

原文链接：https://www.dataquest.io/blog/math-in-data-science/