python实现平面数据分类的简单介绍

本文目录一览：

1、python对数据进行聚类怎么显示数据分类
2、怎样用 Python 进行数据分析？
3、Python 数据可视化：分类特征统计图
4、用python语言将Excle表格数据分类，该怎么做？

python对数据进行聚类怎么显示数据分类

将其整理成数据集为：

[ [1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"] ]

算法过程：

1、计算原始的信息熵。

2、依次计算数据集中每个样本的每个特征的信息熵。

3、比较不同特征信息熵的大小，选出信息熵最大的特征值并输出。

运行结果：

col : 0 curInfoGain : 2.37744375108 baseInfoGain : 0.0

col : 1 curInfoGain : 1.37744375108 baseInfoGain : 2.37744375108

bestInfoGain : 2.37744375108 bestFeature: 0

结果分析：

说明按照第一列，即有无喉结这个特征来进行分类的效果更好。

思考：

1、能否利用决策树算法，将样本最终的分类结果进行输出？如样本1,2,3属于男性，4属于女性。

2、示例程序生成的决策树只有一层，当特征量增多的时候，如何生成具有多层结构的决策树？

3、如何评判分类结果的好坏？

在下一篇文章中，我将主要对以上三个问题进行分析和解答。如果您也感兴趣，欢迎您订阅我的文章，也可以在下方进行评论，如果有疑问或认为不对的地方，您也可以留言，我将积极与您进行解答。

完整代码如下：

from math import log

"""

计算信息熵

"""

def calcEntropy(dataset):

diclabel = {} ## 标签字典，用于记录每个分类标签出现的次数

for record in dataset:

label = record[-1]

if label not in diclabel.keys():

diclabel[label] = 0

diclabel[label] += 1

### 计算熵

entropy = 0.0

cnt = len(dataset)

for label in diclabel.keys():

prob = float(1.0 * diclabel[label]/cnt)

entropy -= prob * log(prob,2)

return entropy

def initDataSet():

dataset = [[1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"]]

label = ["male","female"]

return dataset,label

#### 拆分dataset ,根据指定的过滤选项值，去掉指定的列形成一个新的数据集

def splitDataset(dataset , col, value):

retset = [] ## 拆分后的数据集

for record in dataset:

if record[col] == value :

reducedFeatVec = record[:col]

reducedFeatVec.extend(record[col+1:]) ### 将指定的列剔除

retset.append(reducedFeatVec) ### 将新形成的特征值列表追加到返回的列表中

return retset

### 找出信息熵增益最大的特征值

### 参数：

### dataset : 原始的数据集

def findBestFeature(dataset):

numFeatures = len(dataset[0]) - 1 ### 特征值的个数

baseEntropy = calcEntropy(dataset) ### 计算原始数据集的熵

baseInfoGain = 0.0 ### 初始信息增益

bestFeature = -1 ### 初始的最优分类特征值索引

### 计算每个特征值的熵

for col in range(numFeatures):

features = [record[col] for record in dataset] ### 提取每一列的特征向量如此处col= 0 ，则features = [1,1,0,0]

uniqueFeat = set(features)

curInfoGain = 0 ### 根据每一列进行拆分，所获得的信息增益

for featVal in uniqueFeat:

subDataset = splitDataset(dataset,col,featVal) ### 根据col列的featVal特征值来对数据集进行划分

prob = 1.0 * len(subDataset)/numFeatures ### 计算子特征数据集所占比例

curInfoGain += prob * calcEntropy(subDataset) ### 计算col列的特征值featVal所产生的信息增益

# print "col : " ,col , " featVal : " , featVal , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain

print "col : " ,col , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain

if curInfoGain baseInfoGain:

baseInfoGain = curInfoGain

bestFeature = col

return baseInfoGain,bestFeature ### 输出最大的信息增益，以获得该增益的列

dataset,label = initDataSet()

infogain , bestFeature = findBestFeature(dataset)

print "bestInfoGain :" , infogain, " bestFeature:",bestFeature

怎样用 Python 进行数据分析？

做数据分析，首先你要知道有哪些数据分析的方法，然后才是用Python去调用这些方法

那Python有哪些库类是能做数据分析的，很多，pandas，sklearn等等

所以你首先要装一个anaconda套件，它包含了几乎所有的Python数据分析工具，

之后再学怎么分析。

Python 数据可视化：分类特征统计图

上一课已经体验到了 Seaborn 相对 Matplotlib 的优势，本课将要介绍的是 Seaborn 对分类数据的统计，也是它的长项。

针对分类数据的统计图，可以使用 sns.catplot 绘制，其完整参数如下：

本课使用演绎的方式来学习，首先理解这个函数的基本使用方法，重点是常用参数的含义。

其他的参数，根据名称也能基本理解。

下面就依据 kind 参数的不同取值，分门别类地介绍各种不同类型的分类统计图。

读入数据集：

然后用这个数据集制图，看看效果：

输出结果：

毫无疑问，这里绘制的是散点图。但是，该散点图的横坐标是分类特征 time 中的三个值，并且用 hue='kind' 又将分类特征插入到图像中，即用不同颜色的的点代表又一个分类特征 kind 的值，最终得到这些类别组合下每个记录中的 pulse 特征值，并以上述图示表示出来。也可以理解为，x='time', hue='kind' 引入了图中的两个特征维度。

语句 ① 中，就没有特别声明参数 kind 的值，此时是使用默认值 'strip'。

与 ① 等效的还有另外一个对应函数 sns.stripplot。

输出结果：

② 与 ① 的效果一样。

不过，在 sns.catplot 中的两个参数 row、col，在类似 sns.stripplot 这样的专有函数中是没有的。因此，下面的图，只有用 sns.catplot 才能简洁直观。

输出结果：

不过，如果换一个叫角度来说，类似 sns.stripplot 这样的专有函数，表达简单，参数与 sns.catplot 相比，有所精简，使用起来更方便。

仔细比较，sns.catplot 和 sns.stripplot 两者还是稍有区别的，虽然在一般情况下两者是通用的。

因此，不要追求某一个是万能的，各有各的用途，存在即合理。

不过，下面的声明请注意：如果没有非常的必要，比如绘制分区图，在本课中后续都演示如何使用专有名称的函数。

前面已经初步解释了这个函数，为了格式完整，这里再重复一下，即 sns.catplot 中参数 kind='strip'。

如果非要将此函数翻译为汉语，可以称之为“条状散点图”。以分类特征为一坐标轴，在另外一个坐标轴上，根据分类特征，将该分类特征数据所在记录中的连续值沿坐标轴描点。

从语句 ② 的结果图中可以看到，这些点虽然纵轴的数值有相同的，但是没有将它们重叠。因此，我们看到的好像是“一束”散点，实际上，所有点的横坐标都应该是相应特征分类数据，也不要把分类特征的值理解为一个范围，分散开仅仅是为了图示的视觉需要。

输出结果：

④ 相对 ② 的图示，在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0，它可以表示点的“振动”，如果默认或者 jitter=True，意味着允许描点在某个范围振动——语句 ② 的效果；还可设置为某个 0 到 1 的浮点，表示许可振动的幅度。请对比下面的操作。

输出结果：

语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征，但是，如果感觉图有点乱，还可以这样做：

输出结果：

dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开，相对 ② 的效果有很大差异。

并且，在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。

sns.stripplot 函数中的其他有关参数，请读者使用帮助文档了解。

此函数即 sns.catplot 的参数 kind='swarm'。

输出结果：

再绘制一张简单的图，一遍研究这种图示的本质。

输出结果：

此图只使用了一个特征的数据，简化表象，才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据，依据其他特征的连续值在图中描点，并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是，与之不同的是，这些点不是随机分布的，它们经过调整之后，均匀对称分布在分类特征数值所在直线的两侧，这样能很好地表示数据的分布特点。但是，这种方式不适合“大数据”。

sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个，熟悉一番基本操作。

在分类维度上还可以再引入一个维度，用不同颜色的点表示另外一种类别，即使用 hue 参数来实现。

输出结果：

这里用 hue = 'smoker' 参数又引入了一个分类特征，在图中用不同颜色来区分。

如果觉得会 smoker 特征的值都混在一起有点乱，还可以使用下面方式把他们分开——老调重弹。

输出结果：

生成此效果的参数就是 dodge=True，它的作用就是当 hue 参数设置了特征之后，将 hue 的特征数据进行分类。

sns.catplot 函数的参数 kind 可以有三个值，都是用于绘制分类的分布图：

下面依次对这三个专有函数进行阐述。

用python语言将Excle表格数据分类，该怎么做？

先import xlrd库，然后循环把数据读出来，在根据你自己的条件排序或操作就好了啊