首页 > 编程知识 正文

大数据分析与挖掘课程,大数据分析与挖掘石胜飞第四章课后答案

时间:2023-05-06 14:01:42 阅读:257152 作者:3160

大数据分析与挖掘 第一章:

大数据4v
1.容量(Volume)
2.多样性(Variety)
3.速度(Velocity)
4.价值(Value)

数据挖掘提取出来的知识:概念、规则、规律、模式

大数据分析与挖掘的主要步骤:(综合题)
1.任务目标的确定
2.目标数据集的提取
3.数据预处理
4.建立适当的数据分析与挖掘模型
5.模型的解释与评估
6.知识的应用

数据挖掘的主要功能(综合题)
1.对数据的统计分析与特征描述
2.关联规则挖掘和相关性分析
3.分类和回归
4.聚类分析
5.异常检测或者离群点分析

第二章:

数据集类型(填空选择判断)
1.结构化数据(关系数据库、二维表结构)
2.半结构化数据(XML文档、JSON数据)
3.非结构化数据(音频、图像)

数据属性类型
1.标称属性(类似于标签,例如属性Color就是标称属性,表示颜色,取值可能为yellow、purple)
2.序数属性(small,big、学生成绩分为优秀、良好、中等)
3.数值属性(开氏温度、年龄、重量)
描述数据集中趋势的度量:(会判定)
1.算数平均数
2.中位数
3.众数
4.k百分位数
5.四分位数

描述数据离中趋势的度量:
1.极差
2.四分位数极差
3.平均绝对离差
4.方差和标准差
5.离散系数

算术平均数、中位数、众数、四分位数、,极差,四分位数极差会计算。

分布形态的度量:
右偏态为正偏态,偏态的方向是长尾的方向

K=0,称为常峰态,接近于正态分布(选择、判断)
K<0,称为低峰态
K>0,称为尖峰态

箱型图:

上四分位数Q3,中位数,下四分位数Q1

预处理:
1.零均值,数据之和与均值都为0
2.Z分数变换(适用范围)(均值为0,方差为1),缺点:假如原始数据并没有呈细腻的小兔子分布,标准化的数据分布效果并不好
3.独热编码(会编码)(属性只能有一个取1,其余三个都为0),缺点:带来数据属性(维数)极大扩张的负面影响。

主成分分析:PCA是一个降维算法

第三章:

Apriori算法的改进有哪些:
1.将整个事务数据库T的所有记录划分为不相交的子数据库Pi,保证每个Pi大小合适,能够放到内存的缓冲区中,从而提高访问效率,减少磁盘I/O的开销。
2.把每个Pi单独扫描一遍,得到局部的频繁项集。
3.将所有局部频繁项集合并,再扫描一次所有的子数据库,即第二次扫描整体数据库T,从而得到全局频繁项集。

FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。

序列模式算法:prefixSpan:会找前缀、后缀。

第四章:

信息熵可以用来度量信源X整体的不确定性。(越大越混乱,减少的越多越好)
信息增益:偏向于多值属性。一个属性的信息增益越大,表明该属性减少样本的熵的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。
增益率:增益率引入了分裂信息,取值数目多的属性分裂信息也会变大。
Gini系数:偏向于多值属性,当类数目较大时,计算比较复杂,它倾向于大小相等的分区和纯度。

1.ID3,分类属性
2.C4.5,可以处理连续数值型属性
3.CART算法,能够处理连续和离散值类型的属性

过拟合:样本点几乎都被连接到(判断)
欠拟合:样本点几乎没被连接到

剪枝算法(填空):
1.预剪枝,通过提前停止树的构建而对树进行剪枝
2.后剪枝,首先构造完整的决策树,允许过渡拟合训练数据;然后,对那些置信度不够的节点子树用叶节点代替。该叶子的类标号设为子树根节点所对应的子集中占树最多的类别。

判断:自底向上(REP错误率降低剪枝、 CCP代价复杂度剪枝、 EBP基于错误的剪枝)、自顶向下(PEP悲观错误剪枝)

并行性。(判断、选择)
1.Adaboost串行,效率低,速度慢
2.Bagging并行
3.随机森林并行,提高效率,分类速度快

混淆矩阵,假设类别1为正,类别0为负(会计算)
每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量

ROC曲线会判定。ROC曲线表现为从原点垂直上升至左上角,然后水平到达右上角的一个直角折线。

回归:预测性数据建模,给出具体结果,数据是连续型
分类:基于已有的数据样本建立的数学模型,离散型

分类:有监督学习,事先定义好类别
聚类:无监督学习

线性回归(到y结束)
逻辑回归(y后面多加一层函数)

第五章:

给定四种类型算法判断他是哪个类型的算法,或找选择里面不是这类算法的一个(选择)
1.基于划分的聚类算法
K均值算法 二分k均值算法 小批量k均值算法 k均值++算法
K中心算法 数据流k均值算法
2.基于密度的聚类算法
DBSCAN算法 OPTICS算法
3.基于层次的聚类算法
凝聚的聚类算法(AGNES算法) BIRCH算法
4.基于网格的聚类算法
STING算法 CLIQUE算法

有量纲:幂距离、dtdyj距离、曼哈顿距离(判断、选择)
无量纲:兰式距离、wndjz距离、qsdhh距离,余弦相似度

K均值算法的改进(判断,选择)
1.二分k均值法针对k均值算法计算开销大进行改进,减少相似度计算次数,加快K均值算法的执行速度
2.小批量k均值针对k均值算法计算样本量少,减少运行时间进行改进
3.k均值++针对k均值算法选择初始质心的方式进行改进

基于密度聚类算法:(填空选择)
DBSCAN核心思想:将处于高密度区域的对象称为核心对象,基于聚类内部任意核心对象不断扩展生成聚类。
邻域 核心对象 直接密度可达(非对称)密度可达(非对称)
密度相连(对称)

优点(选择判断)
1.可以对任意形状的数据集进行聚类
2.无需提前指定聚类个数
3.聚类同时可发现异常点
4.对数据集的异常点不敏感
缺点
1.对于密度不均匀的数据集聚类效果较差
2.数据集较大时,聚类收敛时间较长
3.数据集较大时,要求较大的内存支持,io开销大

OPTICS核心概念 :核心距离(是一个点成为核心点的最小邻域半径) 可达距离

具有单调性:最短距离法和最长距离法
非单调性:重心法和中间距离法
空间浓缩: 最短距离法、重心法
空间扩张:最长距离法、离差平方和法
类平均法比较适中

STING、CLIQUE是基于网格聚类(选择、判断)。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。