首页 > 编程知识 正文

统计学的基本方法包括哪些(统计学数据的类型)

时间:2023-05-04 06:28:29 阅读:94043 作者:528

编辑】数据类型是统计学的重要概念。 机器学习和数据科学开发者Niklas Donges简要介绍了不同的数据类型,了解这些数据类型有助于数据集合适的探索性数据分析(EDA ) ——机器学习项目中最被低估的部分之一。

介绍

了解各种数据类型是探索性数据分析(EDA )所需的重要预备知识,同时也有助于选择正确的可视化方法。 数据类型可以认为是对不同类型的变量进行分类的方法。 介绍主要变量类型及其相应的示例。 有时将其称为测量尺度(measurement scale )。

类别数据

类别数据(categrorical data )表示该人的性别、说话语言等特性。 类别数据也可以使用数值。 例如,1表示雌性,0表示雄性。

名义数据

名义值是用于标记变量的定性离散单元。 你可以直接把它们当成“标签”。 注意名义数据是无序的。 因此,即使改变名义值的顺序,其含义也不会改变。 下面是一些名义特征的例子。

性别:雌性,雄性。 语言:英语、法语、德语、西班牙语。 上述性别特征也称为“二分”(dichotomous )值,因为它们只包含两个类别。

顺序数据

序值(ordinal value )是指离散有序的定性单元。 不仅有秩序,还和名义数据差不多。 例如,教育背景可以用顺序值表示。

请注意,在中学研究生院,其实中学高中之间的差别,和高中大学之间的差别是不同的。 这是顺序数据的主要限制,顺序值的差异不清楚。 因此,优先级值经常用于测量非数值特性,如愉快和顾客满意度。

数值数据

离散数据

“离散数据”(discrete data )值不同,且是分散的。 换句话说,只能接受特定的值。 这样的数据无法测量,但可以计数。 基本上用于表示可分类的信息。 例如,掷100次硬币正面朝上的次数。

可以通过以下两个问题来检查你正在处理的是否是离散数据。 可以数一下那个吗? 可以分成越来越小的部分吗?

相反,可以测量数据但不能计数时,为连续数据。

连续数据

连续数据表示测量。 例如身高。

连续数据可以分为等间隔数据(interval data )和等比数据) ratio data )。

等间距值是指等间距的规则单元。 也就是说,等间隔变量包含规则值,并知道这些值之间的间隔。 例如,如果用等间隔的数据表示温度,则结果如下:

-10-50 5 10 15等距值的问题是它们没有“真零”。 用上面的例子来说,0度不是绝对零度。 也可以增加或减少等距值,而不是乘以等距值或计算比率。 因为没有“真正的零”,所以不能大量应用记述统计学或推论统计学的方法。

等比值具有等距离值的所有特性,同时也有绝对的零。 因此,不仅可以加减,还可以乘除。 高度、重量、长度、绝对温度等都属于等比值。

数据类型为什么重要?

数据类型是一个非常重要的概念,因为统计方法只适用于特定的数据类型。 需要用不同的方法分析连续数据和类别数据。 因此,了解您要处理的数据类型,并选择正确的分析方法。

下面,让我们重新审视上述各数据类型,看看可以应用什么样的统计学方法。 为了理解我们讨论的某些性质,有必要了解记述性统计学。 如果你对这个不熟悉的话,请先看我写的描述性统计学的介绍。

统计学方法

名义数据

处理名义数据时,你用以下方法收集信息。

度数在一定期间或整个数据集发生的次数。 比例度数除以所有事件的度数之和,即可得到比例。 百分比我认为这个不需要解释。 大众数量出现次数最多,也就是度数最高的数据。 方法使用饼图和直方图将名义数据可视化。

左:饼图; 右:直方图

顺序数据

yjdmy处理序列数据时,可以使用上述名义数据方法,但也可以使用其他一些工具。 也就是说,可以使用度数、比例、百分比、众数的摘要顺序数据,也可以使用饼图、直方图的可视化顺序数据。 除此之外,您还可以:

百分比值计算按从小到大顺序排列的数据的累计百分比值,将与某个百分位对应的数据值称为其百分位的百分比值。 百分比可以用于表示数据的离散趋势。 中位数为50个百分点,将数据分成相等的上下两部分。 中间值可以用于表示数据的中间趋势。 例如,用顺序数据表示星巴克咖啡的容量,就是中杯、大杯、特大杯。 那么,其中的位数很大。 也就是说,真正的中杯是大杯。 四分位距离75百分位数和25百分位数之差为四分位距离。 四分位距离可以简单地概括数据的离散趋势。 连续数据

大多数情况下

统计学方法都可以用于连续数据。你可以使用百分位数、中位数、四分位距、均值、众数、标准差、区间。

你可以使用矩形图或箱形图可视化连续数据。从矩形图上可以看到分布的中间趋势、离散程度、形态和峰态。注意,矩形图不体现离散值,因此我们有时使用箱形图。

左:箱形图;右:矩形图

总结

本文讨论了统计学中常用的不同数据类型。你了解了离散数据和连续数据的区别,以及什么是名目数据、次序数据、等距数据、等比数据。此外,你现在知道了每种数据类型可以应用的统计学方法和可视化方法。如果你在给定数据集上进行探索性分析,你会发现这些非常有用。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。