(一) iris数据集简介
Iris数据集是机器学习任务中常用的分类实验数据集,由Fisher于1936年收集整理而成。 Iris名称为安德森爱丽丝花数据集,英文全名为Anderson’sirisdataset,是一种多元分析数据集。 Iris共有150个样本,分为3类,各类数据50个,每个数据包含4个属性。 根据萼长、萼宽、花瓣长、花瓣宽4个属性可以预测鸢尾花卉属于(Setosa,Versicolour,Virginica ) 3种中的哪一种。
一般来说,iris数据集是用于对莺尾花进行分类的数据集,每个样本包括4个特征:萼长、萼宽、花瓣长、花瓣宽。 需要制作能够根据下表的前4列(或样品的4个特征判断样品是山光圈(Setosa )、变色光圈(Versicolour )还是弗吉尼亚光圈)的分类器
iris中的每个样本都包含作为目标属性的品种信息。 第五列也称为目标或标签。
示例的部分屏幕截图:
构建样品中4个特征两两两组合(任意2个特征分别为横轴和纵轴,用不同颜色标记不同品种的花),如图所示,12种组合(实际只有6种,其他6种与之对称)
(二)基于ski-kit的iris数据集
python的数据挖掘和机器学习库sci工具包已经包含了iris数据集。 如果运行时环境中未安装sklearn,则可以使用pip install sklearn命令进行安装。
本节使用pychram环境来显示sklearn的内置iris数据集,如下所示:
importsklearnif _ name _=' _ _ main _ ' : iris=sk learn.datasets.load _ iris (# data对应于示例的四个特征。 150行4列的print(shapeofdata: ) (print ) Iris.data.shape (前5行的print(linetop5: ) ) (print ) iris.data,表示样本的特征150行一列的打印(shapeoftarget : ) iris.target.shape所有示例的目标属性打印(showtargetofdata3360 ) irint )
其中,iris.target将花的3个品种分别用0、1、2这3个整数表示
关于分类,使用了Iris数据集。 该sci工具包附带。 在pkgs目录中搜索:iris.csv就可以了。
froms klearn.datasetsimportload _ iris iris=load _ iris (