目录数据分类问题Classification聚类Clustering线性回归Regression数据预处理什么是数据处理隐私保护和并行计算云计算
数据
数据是表示一个或多个变量的定性或定量属性的信息片段。 数据通常被视为信息和知识的最低级别的抽象
数据的分类
连续、离散、二进制、字符串、符号
存储
逻辑存储、物理存储
主要问题
数据转换,数据错误和正确。
大数据
Gartner say :数据量大(高卷)、速度快(高卷)、种类多(高卷) )。
Mckinsey say :超出了传统数据库软件的获取、存储、管理和分析能力
数据的发展现状
越来越多的数据需要处理,而不是结构化数据
应用
公共安全(根据犯罪记录显示地图、警察局的位置,观察犯罪规律,可以预防犯罪) )。
医疗(目前问题:过度治疗治疗不足; 大数据分析人类基因组,不仅针对对症下药,也针对人类)
城市规划(交通信息判断道路规划)
位置信息(监测儿童位置智能装备购物信息获取顾客购物习惯,监测商场购物信息)
零售数据(准确刊登广告,监测推荐商品的评价,获取售后服务信息)
在社交网络(找到有影响力的人,准备营销。 (个人理解为代言人)
数据哪里找
From Data to Intelligence
数据库处理-数据调整-诊断模式
数据信息知识诊断支持
ETL系统的作用
数据提取、数据转换和数据加载
数据挖掘过程
efineproblem-data collection-data preparation-data modelling-interpreation/evaluation-implement/deploy model
分类问题Classification给出了一些训练集、训练所模型,在遇到未知对象时可以预测结果
算法
诊断树、K-Nearest Neighbours、Neural Networks和Support Vector Machines
应用
Chum Predicition,medical诊断程序
银行正在区分顾客的风险程度。 如左图所示,简单来说,收入越高、节俭越多,风险就越低
未必可以划分一条线,有时需要两条以上的线
分类之一是overfitting。 我们通常选择黑线。 期待着平滑的曲线。 绿线没有形成合理的分界线。 下图:
数据集分类结果
数据分为训练集和测试集,训练集生成模型,测试集用于评估模型
混淆矩阵分为四个块:真对、假对、真错误、假错误
对华为真对TP
错误地在配对中添加了假配对FP
错的是错误中真正的错误TN
的被分类为错误,其中有虚假错误FN
下图中,对角线为random guess
AUC值是曲线下的面积,越接近1,模型的效果越好
集群Clustering与分类的差异:没有预先的标签
距离度量(美好的睫毛距离、曼哈顿距离、hsdct距离) ) ) ) ) ) ) )。
33558www.Sina.com/(k-means,Sequential Leader,Affinity Propagation ) )。
算法(市场研究、图像和社交网络分析) )。
关联规则(Association Rule )
买过的东西1、没买的东西从0次图可以看出,买过牛奶面包的人也有可能买黄油
线性回归regressiony=f(x,)表示参数和变量之间是线性的,并不表示图像是线性的。
数据预处理数据预处理http://www.Sina.com/(缺少数据、编码不同、数值不一致。 )
应用
问题(填补缺失值,使变换标准化。 )
隐私保护和并行计算获取一些隐私数据时,必须保护当时人的信息,不能使用普通问卷。 接受问卷的人不能知道问卷的信息。 收到调查问卷后,只需要得到某个属性的百分比。
质量
云计算是指数据清洗
平台即服务、基础设计即服务、软件即服务
上图中P(False) = 1-P(True),带入以后,进行整理即可得到下面的公式,由最终结果可知p0.5,否则无意义包括计算当做一种资源作为高性能计算设备
低成本、高计算密度、安装方便
有效的数据挖掘工作需要哪些因素?
GPU
没有最好的算法。 因问题而异。
能否预测股市
量化交易,难以预测涨跌,股票影响因素太多
优点
高质量的数据, 合适的算法模型, 强悍的计算平台, 丰富的领域知识
幸存者偏移(survivorship bias ) )。
只有成功的人才能发现。 面对数据展示,要有真正的了解和理解,不能贸然决定
要全面看数据,注意各维度