首页 > 编程知识 正文

分类python代码实例的简单介绍

时间:2023-12-18 11:56:36 阅读:316974 作者:HZHE

本文目录一览:

求Python代码 如何分类统计

统计一个列表中每一个元素的个数在Python里有两种实现方式,第一种是新建一个dict,键是列表中的元素,值是统计的个数,然后遍历list。items=["cc","cc","ct","ct","ac"]count={}foriteminitems:count[item]=count.get(item,0)+1

如何用python实现随机森林分类

大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。

这里我给出我的理解和部分翻译:

参数说明:

最主要的两个参数是n_estimators和max_features。

n_estimators:表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数。

max_features:随机选择特征集合的子集合,并用来分割节点。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则:

max_features=n_features,如果是分类问题则max_features=sqrt(n_features)。

如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1。

同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

这里也给出一篇老外写的文章:调整你的随机森林模型参数 

这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:

[python] view plain copy

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

import numpy as np

from sklearn.datasets import load_iris

iris=load_iris()

#print iris#iris的4个属性是:萼片宽度 萼片长度 花瓣宽度 花瓣长度 标签是花的种类:setosa versicolour virginica

print iris['target'].shape

rf=RandomForestRegressor()#这里使用了默认的参数设置

rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练

#

#随机挑选两个预测不相同的样本

instance=iris.data[[100,109]]

print instance

print 'instance 0 prediction;',rf.predict(instance[0])

print 'instance 1 prediction;',rf.predict(instance[1])

print iris.target[100],iris.target[109]

返回的结果如下:

(150,)

[[ 6.3  3.3  6.   2.5]

 [ 7.2  3.6  6.1  2.5]]

instance 0 prediction; [ 2.]

instance 1 prediction; [ 2.]

2 2

在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献。所以对于贡献不大的,甚至是负贡献的我们可以考虑删除这一列的特征值,避免做无用的分类。

[python] view plain copy

from sklearn.cross_validation import cross_val_score, ShuffleSplit

X = iris["data"]

Y = iris["target"]

names = iris["feature_names"]

rf = RandomForestRegressor()

scores = []

for i in range(X.shape[1]):

score = cross_val_score(rf, X[:, i:i+1], Y, scoring="r2",

cv=ShuffleSplit(len(X), 3, .3))

scores.append((round(np.mean(score), 3), names[i]))

print sorted(scores, reverse=True)

显示的结果如下:

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构。

python把excel第一列相同的分类

Python操作excel文件根据某一字段将相同的类拆分。

需要安装pandas,xlrd,openpyxl库。

定义新列需要用到columns.tolist()函数,具体代码如下:col_name=df.columns.tolistcol_name.insert(新列位置,'新列名称')wb=df.reindex(columns=col_name)然后后面再接一行代码用来定义新列的计算规则。

如何用python将文件夹中图片根据颜色分类

本文实例讲述了Python通过PIL获取图片主要颜色并和颜色库进行对比的方法。分享给大家供大家参考。具体分析如下:

这段代码主要用来从图片提取其主要颜色,类似Goolge和Baidu的图片搜索时可以指定按照颜色搜索,所以我们先需要将每张图片的主要颜色提取出来,然后将颜色划分到与其最接近的颜色段上,然后就可以按照颜色搜索了。

在使用google或者baidu搜图的时候会发现有一个图片颜色选项,感觉非常有意思,有人可能会想这肯定是人为的去划分的,呵呵,有这种可能,但是估计人会累死,开个玩笑,当然是通过机器识别的,海量的图片只有机器识别才能做到。

那用python能不能实现这种功能呢?答案是:能

利用python的PIL模块的强大的图像处理功能就可以做到,下面上代码: 

复制代码代码如下:

import colorsys

def get_dominant_color(image):

#颜色模式转换,以便输出rgb颜色值

image = image.convert('RGBA')

#生成缩略图,减少计算量,减小cpu压力

image.thumbnail((200, 200))

max_score = None

dominant_color = None

for count, (r, g, b, a) in image.getcolors(image.size[0] * image.size[1]):

# 跳过纯黑色

if a == 0:

continue

saturation = colorsys.rgb_to_hsv(r / 255.0, g / 255.0, b / 255.0)[1]

y = min(abs(r * 2104 + g * 4130 + b * 802 + 4096 + 131072) 13, 235)

y = (y - 16.0) / (235 - 16)

# 忽略高亮色

if y 0.9:

continue

# Calculate the score, preferring highly saturated colors.

# Add 0.1 to the saturation so we don't completely ignore grayscale

# colors by multiplying the count by zero, but still give them a low

# weight.

score = (saturation + 0.1) * count

if score max_score:

max_score = score

dominant_color = (r, g, b)

return dominant_color

使用方法:

from PIL import Image

print get_dominant_color(Image.open('logo.jpg'))

这样就会返回一个rgb颜色,但是这个值是很精确的范围,那我们如何实现百度图片那样的色域呢??

其实方法很简单,r/g/b都是0-255的值,我们只要把这三个值分别划分相等的区间,然后组合,取近似值。例如:划分为0-127,和128-255,然后自由组合,可以出现八种组合,然后从中挑出比较有代表性的颜色即可。

当然我只是举一个例子,你也可以划分的更细,那样显示的颜色就会更准确~~大家赶快试试吧

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。