大数据分析与挖掘课程,大数据分析与挖掘石胜飞第四章课后答案

大数据分析与挖掘第一章：

大数据4v
1.容量（Volume）
2.多样性（Variety）
3.速度（Velocity）
4.价值（Value）

数据挖掘提取出来的知识：概念、规则、规律、模式

大数据分析与挖掘的主要步骤：（综合题）
1.任务目标的确定
2.目标数据集的提取
3.数据预处理
4.建立适当的数据分析与挖掘模型
5.模型的解释与评估
6.知识的应用

数据挖掘的主要功能（综合题）
1.对数据的统计分析与特征描述
2.关联规则挖掘和相关性分析
3.分类和回归
4.聚类分析
5.异常检测或者离群点分析

第二章：

数据集类型（填空选择判断）
1.结构化数据（关系数据库、二维表结构）
2.半结构化数据（XML文档、JSON数据）
3.非结构化数据（音频、图像）

数据属性类型
1.标称属性（类似于标签，例如属性Color就是标称属性，表示颜色，取值可能为yellow、purple）
2.序数属性（small，big、学生成绩分为优秀、良好、中等）
3.数值属性（开氏温度、年龄、重量）
描述数据集中趋势的度量：（会判定）
1.算数平均数
2.中位数
3.众数
4.k百分位数
5.四分位数

描述数据离中趋势的度量：
1.极差
2.四分位数极差
3.平均绝对离差
4.方差和标准差
5.离散系数

算术平均数、中位数、众数、四分位数、，极差，四分位数极差会计算。

分布形态的度量：
右偏态为正偏态，偏态的方向是长尾的方向

K=0，称为常峰态，接近于正态分布（选择、判断）
K<0，称为低峰态
K>0，称为尖峰态

箱型图：

上四分位数Q3，中位数，下四分位数Q1

预处理：
1.零均值，数据之和与均值都为0
2.Z分数变换（适用范围）（均值为0，方差为1），缺点：假如原始数据并没有呈细腻的小兔子分布，标准化的数据分布效果并不好
3.独热编码（会编码）（属性只能有一个取1，其余三个都为0），缺点：带来数据属性（维数）极大扩张的负面影响。

主成分分析：PCA是一个降维算法

第三章：

Apriori算法的改进有哪些：
1.将整个事务数据库T的所有记录划分为不相交的子数据库Pi，保证每个Pi大小合适，能够放到内存的缓冲区中，从而提高访问效率，减少磁盘I/O的开销。
2.把每个Pi单独扫描一遍，得到局部的频繁项集。
3.将所有局部频繁项集合并，再扫描一次所有的子数据库，即第二次扫描整体数据库T，从而得到全局频繁项集。

FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。

序列模式算法：prefixSpan：会找前缀、后缀。

第四章：

信息熵可以用来度量信源X整体的不确定性。（越大越混乱，减少的越多越好）
信息增益：偏向于多值属性。一个属性的信息增益越大，表明该属性减少样本的熵的能力更强，这个属性使得数据由不确定性变成确定性的能力越强。
增益率：增益率引入了分裂信息，取值数目多的属性分裂信息也会变大。
Gini系数：偏向于多值属性，当类数目较大时，计算比较复杂，它倾向于大小相等的分区和纯度。

1.ID3，分类属性
2.C4.5，可以处理连续数值型属性
3.CART算法，能够处理连续和离散值类型的属性

过拟合：样本点几乎都被连接到（判断）
欠拟合：样本点几乎没被连接到

剪枝算法（填空）：
1.预剪枝，通过提前停止树的构建而对树进行剪枝
2.后剪枝，首先构造完整的决策树，允许过渡拟合训练数据；然后，对那些置信度不够的节点子树用叶节点代替。该叶子的类标号设为子树根节点所对应的子集中占树最多的类别。

判断：自底向上（REP错误率降低剪枝、 CCP代价复杂度剪枝、 EBP基于错误的剪枝）、自顶向下(PEP悲观错误剪枝)

并行性。（判断、选择）
1.Adaboost串行，效率低，速度慢
2.Bagging并行
3.随机森林并行，提高效率，分类速度快

混淆矩阵，假设类别1为正，类别0为负（会计算）
每一行之和表示该类别的真实样本数量，每一列之和表示被预测为该类别的样本数量

ROC曲线会判定。ROC曲线表现为从原点垂直上升至左上角，然后水平到达右上角的一个直角折线。

回归：预测性数据建模，给出具体结果，数据是连续型
分类：基于已有的数据样本建立的数学模型，离散型

分类：有监督学习，事先定义好类别
聚类：无监督学习

线性回归（到y结束）
逻辑回归（y后面多加一层函数）

第五章：

给定四种类型算法判断他是哪个类型的算法，或找选择里面不是这类算法的一个（选择）
1.基于划分的聚类算法
K均值算法二分k均值算法小批量k均值算法 k均值++算法
K中心算法数据流k均值算法
2.基于密度的聚类算法
DBSCAN算法 OPTICS算法
3.基于层次的聚类算法
凝聚的聚类算法（AGNES算法） BIRCH算法
4.基于网格的聚类算法
STING算法 CLIQUE算法

有量纲：幂距离、dtdyj距离、曼哈顿距离（判断、选择）
无量纲：兰式距离、wndjz距离、qsdhh距离，余弦相似度

K均值算法的改进（判断，选择）
1.二分k均值法针对k均值算法计算开销大进行改进，减少相似度计算次数，加快K均值算法的执行速度
2.小批量k均值针对k均值算法计算样本量少，减少运行时间进行改进
3.k均值++针对k均值算法选择初始质心的方式进行改进

基于密度聚类算法：（填空选择）
DBSCAN核心思想：将处于高密度区域的对象称为核心对象，基于聚类内部任意核心对象不断扩展生成聚类。
邻域核心对象直接密度可达（非对称）密度可达（非对称）
密度相连（对称）

优点（选择判断）
1.可以对任意形状的数据集进行聚类
2.无需提前指定聚类个数
3.聚类同时可发现异常点
4.对数据集的异常点不敏感
缺点
1.对于密度不均匀的数据集聚类效果较差
2.数据集较大时，聚类收敛时间较长
3.数据集较大时，要求较大的内存支持，io开销大

OPTICS核心概念：核心距离（是一个点成为核心点的最小邻域半径）可达距离

具有单调性：最短距离法和最长距离法
非单调性：重心法和中间距离法
空间浓缩：最短距离法、重心法
空间扩张：最长距离法、离差平方和法
类平均法比较适中

STING、CLIQUE是基于网格聚类（选择、判断）。