基于iris数据集进行数据分析,iris数据集用各种分类方法分类

一. iris数据集简介

iris数据集的中文名称为安德森爱丽丝花卉数据集，英文全名为Anderson’sirisdataset。 iris包含150个示例，对应于数据集中每行的数据。 iris数据集是一个150行5列的二维表，因为每行数据包含每个采样的四个特征和采样类别信息。

通俗地说，iris数据集是用于对花进行分类的数据集，每个样本包括花萼长、花萼宽、花瓣长、花瓣宽4个特征(前4列)。需要制作分类器。分类器可以根据样品的4个特征判断样品属于山鸢尾、变色鸢尾、弗吉尼亚鸢尾中的哪一种。

iris中的每个样本都包含作为目标属性的品种信息。第五列也称为目标或标签。

示例的部分屏幕截图：

构建样品中4个特征两两两组合(任意2个特征分别为横轴和纵轴，用不同颜色标记不同品种的花)，如图所示，12种组合(实际只有6种，其他6种与之对称)

python的数据挖掘和机器学习库sci工具包已经包含了iris数据集。如果尚未安装sci工具包，请参见sci工具包安装教程。

二. scikit中iris数据集简介

在linux上打开终端(ubuntu的默认快捷方式为ctrl alt T )，输入python进入python shell，然后输入代码。

fromsklearnimportdatasetsiris=datasets.load _ iris (# data对应于示例的四个特征。 150行4列的print iris.data.shape#表示样本特征的前五行的print iris.data[:5]#target与样本类别(目标属性)相对应，150行1列的print

其中，iris.target将花的3个品种分别用0、1、2这3个整数表示

关于分类，使用了Iris数据集。该sci工具包附带。在pkgs目录中搜索：iris.csv就可以了。

froms klearn.datasetsimportload _ iris

iris=load_iris ()