一. iris数据集简介
iris数据集的中文名称为安德森爱丽丝花卉数据集,英文全名为Anderson’sirisdataset。 iris包含150个示例,对应于数据集中每行的数据。 iris数据集是一个150行5列的二维表,因为每行数据包含每个采样的四个特征和采样类别信息。
通俗地说,iris数据集是用于对花进行分类的数据集,每个样本包括花萼长、花萼宽、花瓣长、花瓣宽4个特征(前4列)。 需要制作分类器。 分类器可以根据样品的4个特征判断样品属于山鸢尾、变色鸢尾、弗吉尼亚鸢尾中的哪一种。
iris中的每个样本都包含作为目标属性的品种信息。 第五列也称为目标或标签。
示例的部分屏幕截图:
构建样品中4个特征两两两组合(任意2个特征分别为横轴和纵轴,用不同颜色标记不同品种的花),如图所示,12种组合(实际只有6种,其他6种与之对称)
python的数据挖掘和机器学习库sci工具包已经包含了iris数据集。 如果尚未安装sci工具包,请参见sci工具包安装教程。
二. scikit中iris数据集简介
在linux上打开终端(ubuntu的默认快捷方式为ctrl alt T ),输入python进入python shell,然后输入代码。
fromsklearnimportdatasetsiris=datasets.load _ iris (# data对应于示例的四个特征。 150行4列的print iris.data.shape#表示样本特征的前五行的print iris.data[:5]#target与样本类别(目标属性)相对应,150行1列的print
其中,iris.target将花的3个品种分别用0、1、2这3个整数表示
关于分类,使用了Iris数据集。 该sci工具包附带。 在pkgs目录中搜索:iris.csv就可以了。
froms klearn.datasetsimportload _ iris
iris=load_iris ()