数据挖掘需要什么基础,数据挖掘能否自学

目录数据分类问题Classification聚类Clustering线性回归Regression数据预处理什么是数据处理隐私保护和并行计算云计算

数据

数据是表示一个或多个变量的定性或定量属性的信息片段。数据通常被视为信息和知识的最低级别的抽象

数据的分类

连续、离散、二进制、字符串、符号

存储

逻辑存储、物理存储

主要问题

数据转换，数据错误和正确。

大数据

Gartner say :数据量大(高卷)、速度快(高卷)、种类多(高卷) )。

Mckinsey say :超出了传统数据库软件的获取、存储、管理和分析能力

数据的发展现状

越来越多的数据需要处理，而不是结构化数据

应用

公共安全(根据犯罪记录显示地图、警察局的位置，观察犯罪规律，可以预防犯罪) )。

医疗(目前问题：过度治疗治疗不足；大数据分析人类基因组，不仅针对对症下药，也针对人类)

城市规划(交通信息判断道路规划)

位置信息(监测儿童位置智能装备购物信息获取顾客购物习惯，监测商场购物信息)

零售数据(准确刊登广告，监测推荐商品的评价，获取售后服务信息)

在社交网络(找到有影响力的人，准备营销。 (个人理解为代言人)

数据哪里找

From Data to Intelligence

数据库处理-数据调整-诊断模式

数据信息知识诊断支持

ETL系统的作用

数据提取、数据转换和数据加载

数据挖掘过程

efineproblem-data collection-data preparation-data modelling-interpreation/evaluation-implement/deploy model

分类问题Classification给出了一些训练集、训练所模型，在遇到未知对象时可以预测结果

算法

诊断树、K-Nearest Neighbours、Neural Networks和Support Vector Machines

应用

Chum Predicition，medical诊断程序

银行正在区分顾客的风险程度。如左图所示，简单来说，收入越高、节俭越多，风险就越低

未必可以划分一条线，有时需要两条以上的线

分类之一是overfitting。我们通常选择黑线。期待着平滑的曲线。绿线没有形成合理的分界线。下图：

数据集分类结果

数据分为训练集和测试集，训练集生成模型，测试集用于评估模型

混淆矩阵分为四个块：真对、假对、真错误、假错误

对华为真对TP

错误地在配对中添加了假配对FP

错的是错误中真正的错误TN

的被分类为错误，其中有虚假错误FN

下图中，对角线为random guess

AUC值是曲线下的面积，越接近1，模型的效果越好

集群Clustering与分类的差异：没有预先的标签

距离度量(美好的睫毛距离、曼哈顿距离、hsdct距离) ) ) ) ) ) ) )。

33558www.Sina.com/(k-means，Sequential Leader，Affinity Propagation ) )。

算法(市场研究、图像和社交网络分析) )。

关联规则(Association Rule )

买过的东西1、没买的东西从0次图可以看出，买过牛奶面包的人也有可能买黄油

线性回归regressiony=f(x，)表示参数和变量之间是线性的，并不表示图像是线性的。

数据预处理数据预处理http://www.Sina.com/(缺少数据、编码不同、数值不一致。）

应用

问题(填补缺失值，使变换标准化。）

隐私保护和并行计算获取一些隐私数据时，必须保护当时人的信息，不能使用普通问卷。接受问卷的人不能知道问卷的信息。收到调查问卷后，只需要得到某个属性的百分比。

质量

云计算是指数据清洗

平台即服务、基础设计即服务、软件即服务

上图中P(False) = 1-P(True),带入以后，进行整理即可得到下面的公式，由最终结果可知p0.5，否则无意义包括计算当做一种资源作为高性能计算设备

低成本、高计算密度、安装方便

有效的数据挖掘工作需要哪些因素？

GPU

没有最好的算法。因问题而异。

能否预测股市

量化交易，难以预测涨跌，股票影响因素太多

优点

高质量的数据，合适的算法模型，强悍的计算平台，丰富的领域知识

幸存者偏移(survivorship bias ) )。

只有成功的人才能发现。面对数据展示，要有真正的了解和理解，不能贸然决定

要全面看数据，注意各维度