首页 > 编程知识 正文

数据挖掘需要什么基础,数据挖掘能否自学

时间:2023-05-05 11:21:03 阅读:142161 作者:4131

目录数据分类问题Classification聚类Clustering线性回归Regression数据预处理什么是数据处理隐私保护和并行计算云计算

数据

数据是表示一个或多个变量的定性或定量属性的信息片段。 数据通常被视为信息和知识的最低级别的抽象

数据的分类

连续、离散、二进制、字符串、符号

存储

逻辑存储、物理存储

主要问题

数据转换,数据错误和正确。

大数据

Gartner say :数据量大(高卷)、速度快(高卷)、种类多(高卷) )。

Mckinsey say :超出了传统数据库软件的获取、存储、管理和分析能力

数据的发展现状

越来越多的数据需要处理,而不是结构化数据

应用

公共安全(根据犯罪记录显示地图、警察局的位置,观察犯罪规律,可以预防犯罪) )。

医疗(目前问题:过度治疗治疗不足; 大数据分析人类基因组,不仅针对对症下药,也针对人类)

城市规划(交通信息判断道路规划)

位置信息(监测儿童位置智能装备购物信息获取顾客购物习惯,监测商场购物信息)

零售数据(准确刊登广告,监测推荐商品的评价,获取售后服务信息)

在社交网络(找到有影响力的人,准备营销。 (个人理解为代言人)

数据哪里找

From Data to Intelligence

数据库处理-数据调整-诊断模式

数据信息知识诊断支持

ETL系统的作用

数据提取、数据转换和数据加载

数据挖掘过程

efineproblem-data collection-data preparation-data modelling-interpreation/evaluation-implement/deploy model

分类问题Classification给出了一些训练集、训练所模型,在遇到未知对象时可以预测结果

算法

诊断树、K-Nearest Neighbours、Neural Networks和Support Vector Machines

应用

Chum Predicition,medical诊断程序

银行正在区分顾客的风险程度。 如左图所示,简单来说,收入越高、节俭越多,风险就越低

未必可以划分一条线,有时需要两条以上的线

分类之一是overfitting。 我们通常选择黑线。 期待着平滑的曲线。 绿线没有形成合理的分界线。 下图:

数据集分类结果

数据分为训练集和测试集,训练集生成模型,测试集用于评估模型

混淆矩阵分为四个块:真对、假对、真错误、假错误

对华为真对TP

错误地在配对中添加了假配对FP

错的是错误中真正的错误TN

的被分类为错误,其中有虚假错误FN

下图中,对角线为random guess

AUC值是曲线下的面积,越接近1,模型的效果越好

集群Clustering与分类的差异:没有预先的标签

距离度量(美好的睫毛距离、曼哈顿距离、hsdct距离) ) ) ) ) ) ) )。

33558www.Sina.com/(k-means,Sequential Leader,Affinity Propagation ) )。

算法(市场研究、图像和社交网络分析) )。

关联规则(Association Rule )

买过的东西1、没买的东西从0次图可以看出,买过牛奶面包的人也有可能买黄油

线性回归regressiony=f(x,)表示参数和变量之间是线性的,并不表示图像是线性的。

数据预处理数据预处理http://www.Sina.com/(缺少数据、编码不同、数值不一致。 )

应用

问题(填补缺失值,使变换标准化。 )

隐私保护和并行计算获取一些隐私数据时,必须保护当时人的信息,不能使用普通问卷。 接受问卷的人不能知道问卷的信息。 收到调查问卷后,只需要得到某个属性的百分比。

质量

云计算是指数据清洗

平台即服务、基础设计即服务、软件即服务

上图中P(False) = 1-P(True),带入以后,进行整理即可得到下面的公式,由最终结果可知p0.5,否则无意义包括计算当做一种资源作为高性能计算设备

低成本、高计算密度、安装方便

有效的数据挖掘工作需要哪些因素?

GPU

没有最好的算法。 因问题而异。

能否预测股市

量化交易,难以预测涨跌,股票影响因素太多

优点

高质量的数据, 合适的算法模型, 强悍的计算平台, 丰富的领域知识

幸存者偏移(survivorship bias ) )。

只有成功的人才能发现。 面对数据展示,要有真正的了解和理解,不能贸然决定

要全面看数据,注意各维度

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。