首页 > 编程知识 正文

收集数据 整理数据 分析数据 统计,收集数据整理数据分析数据得出结论

时间:2023-05-05 15:36:43 阅读:205450 作者:4210

统计学:是收集、整理(筛选、纠错)、分析(找规律:备注)、表述(用图表列示)和解释数据的科学。统计学在数据科学是非常重要的,同时是数据工程师必备的技能;本章主要讲数据的整理&展示基本都是理论~

目录

数据预处理

品质数据的整理与展示

数值型数据的整理与展示

数据展示

数据预处理

数据审核:(检查数据中的错误)

    原始数据(完整性审核,准确性审核)

    二手数据(适用性审核,时效性审核,确认是否必要做进一步的加工整理)

筛选:找出符合条件的数据

排序 :升序和降序、寻找数据的基本特征

品质数据的整理与展示

分类数据的整理与展示:

基本过程:

    1.列出各类别

    2.计算各类别的频数

    3.制作频数分布表

    4.用图像显示数据

频数:落在各类别中的数据的个数

比例:某一类别数据占全部数据的比值

百分比:将比例转成分母为100的形式

比率:不同类别直接的比值

顺序数据的整理与展示:

–亦可计算累计频数(累积百分比):将各类别的频数逐级累加

–亦可计算累计频率:将各类别的频率(百分比)逐级累加

–累积有两种:向上累积(沿顺序方向累加)与向下累积(逆顺序方向累加)

数值型数据的整理与展示

数据分组

什么是单变量分组?(概念要点)

1.将一个变量值作为一组

2.适合于离散变量

3.适合于变量值较少的情况

 

什么是组距分组?(概念要点)

1.将变量值的一个区间作为一组

2.适合于连续变量

3.适合于变量值较多的情况

4.必须遵循“不重不漏”的原则

5.可采用等距分组,也可采用不等距分组

数据展示

直方图

1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布

2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)

3.直方图下的总面积等于1

折线图

1.折线图也称频数多边形图(Frequency polygon)

2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。

3.折线图的两个终点要与横轴相交,具体的做法是

第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。

折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。

茎叶图(未分组数据)

1.用于显示未分组的原始数据的分布

2.由“茎”和“叶”两部分构成,其图形是由数字组成的

3.以该组数据的高位数值作树茎,低位数字作树叶

4.对于n(20≤n≤300)个数据,茎叶图最大行数不超过

 L = [ 10 × log 10 n ]

5.    茎叶图类似于横置的直方图,但又有区别

l直方图可大体上看出一组数据的分布状况,但没有给出具体的数值

l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息

注:茎叶图第一行数据 树茎:10   树叶:788   数据个数:3   表示 为数据 107,108,108

箱线图

1.用于显示未分组的原始数据或分组数据的分布

2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

3.其绘制方法是:

首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)

连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接

往期精选

机器学习|梯度下降法

机器学习|逻辑回归

机器学习|决策树


关注公众号,加小编微信即可拉入线上交流群

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。