sklearn iris数据,sklearn 数据集

(一) iris数据集简介

Iris数据集是机器学习任务中常用的分类实验数据集，由Fisher于1936年收集整理而成。 Iris名称为安德森爱丽丝花数据集，英文全名为Anderson’sirisdataset，是一种多元分析数据集。 Iris共有150个样本，分为3类，各类数据50个，每个数据包含4个属性。根据萼长、萼宽、花瓣长、花瓣宽4个属性可以预测鸢尾花卉属于(Setosa，Versicolour，Virginica ) 3种中的哪一种。

一般来说，iris数据集是用于对莺尾花进行分类的数据集，每个样本包括4个特征：萼长、萼宽、花瓣长、花瓣宽。需要制作能够根据下表的前4列(或样品的4个特征判断样品是山光圈(Setosa )、变色光圈(Versicolour )还是弗吉尼亚光圈)的分类器

iris中的每个样本都包含作为目标属性的品种信息。第五列也称为目标或标签。

示例的部分屏幕截图：

构建样品中4个特征两两两组合(任意2个特征分别为横轴和纵轴，用不同颜色标记不同品种的花)，如图所示，12种组合(实际只有6种，其他6种与之对称)

(二)基于ski-kit的iris数据集

python的数据挖掘和机器学习库sci工具包已经包含了iris数据集。如果运行时环境中未安装sklearn，则可以使用pip install sklearn命令进行安装。

本节使用pychram环境来显示sklearn的内置iris数据集，如下所示：

importsklearnif _ name _=' _ _ main _ ' : iris=sk learn.datasets.load _ iris (# data对应于示例的四个特征。 150行4列的print(shapeofdata: ) (print ) Iris.data.shape (前5行的print(linetop5: ) ) (print ) iris.data，表示样本的特征150行一列的打印(shapeoftarget : ) iris.target.shape所有示例的目标属性打印(showtargetofdata3360 ) irint )

其中，iris.target将花的3个品种分别用0、1、2这3个整数表示

关于分类，使用了Iris数据集。该sci工具包附带。在pkgs目录中搜索：iris.csv就可以了。

froms klearn.datasetsimportload _ iris iris=load _ iris (