数据挖掘导论第二版pdf,数据挖掘实验报告python

数据挖掘——Python加载数据实际来源：数据挖掘实验环境：jupyter

主要内容:实现klearn在python上的自带小数据读取、自定义分类数据的生成和数据可视化。

第1部分：读取、查看四个klearn附带的数据集，并轻松匹配模型。

第二部分：生成自定义分类数据，实现数据可视化。

评论：

sci kit-learn (http://www.Sina.com/)是机器学习中常用的第三方模块，提供以机器学习为中心的许多课程中直接调用的机器学习算法和经典数据集，封装常用的机器学习方法更多关于sklearn:(8个新闻(Python使用sk learn教程_所谓qcdyj-CSDN博客)

我今天知道了python有很多附属的数据集。详细说明如下： (8条消息)盘点| Python附带的数据集_机器学习算法它们-CSDN博客

sklearn

http://www.Sina.com/http://www.Sina.com /

1、导入Boston房价数据集(503、16 )查看

froms klearn.datasetsimportload _ bostonfromsklearnimportlinear _ model #波士顿房价数据集Boston=load_boston(Boston )

Bunch的本质数据类型是dict，属性如下：

DESCR :数据说明。

target_names :标签名称。可自定义，默认为文件夹名称。

文件名称：文件名。

target :文件的分类。在猫和狗两种情况下，与filenames一一对应的是0或1。

data :数据数组。

(如目录结构为的dataset )

请参阅波士顿房价数据集概述、下载和使用：

(8条新闻) dataset Boston:Boston波士顿房价数据集简介、下载、使用详情攻略_处女座编程猴子-CSDN博客_boston数据集

2、分数据集训练

划分自变量和因子，对数据集拟合多元线性回归，输出模型系数。

#查看分割自变量数据及要因变量数据的data=Boston.data target=Boston.target #各自的结构的print(data.shape ) out: ) 506， 13 ) print ) target.shape (用线性回归模型拟合数据集print )、系数矩阵)、linear_model.LinearRegression (，fit ) data、target . coef_ ) ' ' out:系数矩阵： [-1.08011358 e-014.64204584 e-02.05586264 e-02.68673382 e00-1.77666112 e 01.80986521 e 06. e-01-1.23345939 e-02-9.52747232 e-019.31168327 e-03-5.24758378 e-01 ] ' ' ' 3，

#两种不同方法的参数数据集读取命名DIC _ data=Boston [ ' data ' ] DIC _ data=Boston.get [ ' data ' ] DIC _ data #显示数据#显示因素变量(显示

Iris数据集是常用的分类实验数据集，由Fisher，1936收集整理。 Iris又称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据示例，分为三个类别，每个类别包含50个数据，每个数据包含4个属性。萼长、萼宽、花瓣长、花瓣宽4个属性可预测鸢尾花卉属于(Setosa、Versicolour、Virginica ) 3种中的哪一种。

导入froms klearn.datasetsimportload _ iris # iris数据集fromsklearnimportSVM#SVM模型iris=load_iris (数据数据=iris.)

(150，4 ) ) 150，) svm型号：SVC ) c=1.0，

cache_size=200, class_weight=None, coef0=0.0, decision_function_shape='ovr', degree=3, gamma='auto_deprecated', kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)score 0.9866666666666667

任务三糖尿病数据集

#糖尿病数据集from sklearn.datasets import load_diabetesfrom sklearn import linear_model#导入数据集和模型diabetes = load_diabetes()data = diabetes.data#划分target = diabetes.targetprint(data.shape)print(target.shape)#数据结构print('系数矩阵：',linear_model.LinearRegression().fit(data,target).coef_)#拟合得到系数

输出：

(442, 10)(442,)系数矩阵： [ -10.01219782 -239.81908937 519.83978679 324.39042769 -792.18416163 476.74583782 101.04457032 177.06417623 751.27932109 67.62538639]

任务四、手写数字数据(1797, 64)

#任务四手写数字数据#在jupyter 上显示matplotlib%matplotlib inline#导入手写数字数据from sklearn.datasets import load_digitsimport matplotlib.pyplot as plt#画图工具digits = load_digits()data = digits.dataprint(data)#查看数据解耦print(data.shape)#绘制数字plt.matshow(digits.images[0])plt.show()

输出：

[[ 0. 0. 5. ... 0. 0. 0.] [ 0. 0. 0. ... 10. 0. 0.] [ 0. 0. 0. ... 16. 9. 0.] ... [ 0. 0. 1. ... 6. 0. 0.] [ 0. 0. 2. ... 12. 0. 0.] [ 0. 0. 10. ... 12. 1. 0.]](1797, 64)

任务五、生成100数据点并可视化

#任务五生成100数据点并可视化#生成具有两个类别的100个二维样本点并进行数据可视化from sklearn import datasetsimport matplotlib.pyplot as plt#导入数据可视化工具和画图工具#自主生成具有两个自变量属性的数量为100的样本集'''n_samles:控制生成的样本点的个数n_features:控制与类别有关的自变量的维数n_classes：控制生成的分类数据类别的数量'''data,target = datasets.make_classification(n_samples=100, n_features=2,n_informative=2,n_redundant=0,n_repeated=0, n_classes=2,n_clusters_per_class=1)#输出自变量属性和目标变量属性结构print(data.shape)print(target.shape)#可视化plt.scatter(data[:,0],data[:,1],c=target)plt.show()

输出：

(100, 2)(100,) /usr/local/conda/lib/python3.7/site-packages/matplotlib/backends/backend_agg.py:211: RuntimeWarning: Glyph 8722 missing from current font. font.set_text(s, 0.0, flags=flags)/usr/local/conda/lib/python3.7/site-packages/matplotlib/backends/backend_agg.py:180: RuntimeWarning: Glyph 8722 missing from current font. font.set_text(s, 0, flags=flags)