首页 > 编程知识 正文

基于iris数据集进行数据分析,iris数据集用各种分类方法分类

时间:2023-05-05 04:33:26 阅读:158613 作者:2947

一. iris数据集简介

iris数据集的中文名称为安德森爱丽丝花卉数据集,英文全名为Anderson’sirisdataset。 iris包含150个示例,对应于数据集中每行的数据。 iris数据集是一个150行5列的二维表,因为每行数据包含每个采样的四个特征和采样类别信息。

通俗地说,iris数据集是用于对花进行分类的数据集,每个样本包括花萼长、花萼宽、花瓣长、花瓣宽4个特征(前4列)。 需要制作分类器。 分类器可以根据样品的4个特征判断样品属于山鸢尾、变色鸢尾、弗吉尼亚鸢尾中的哪一种。

iris中的每个样本都包含作为目标属性的品种信息。 第五列也称为目标或标签。

示例的部分屏幕截图:

构建样品中4个特征两两两组合(任意2个特征分别为横轴和纵轴,用不同颜色标记不同品种的花),如图所示,12种组合(实际只有6种,其他6种与之对称)

python的数据挖掘和机器学习库sci工具包已经包含了iris数据集。 如果尚未安装sci工具包,请参见sci工具包安装教程。

二. scikit中iris数据集简介

在linux上打开终端(ubuntu的默认快捷方式为ctrl alt T ),输入python进入python shell,然后输入代码。

fromsklearnimportdatasetsiris=datasets.load _ iris (# data对应于示例的四个特征。 150行4列的print iris.data.shape#表示样本特征的前五行的print iris.data[:5]#target与样本类别(目标属性)相对应,150行1列的print

其中,iris.target将花的3个品种分别用0、1、2这3个整数表示

关于分类,使用了Iris数据集。 该sci工具包附带。 在pkgs目录中搜索:iris.csv就可以了。

froms klearn.datasetsimportload _ iris

iris=load_iris ()

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。