十折交叉验证,十折交叉验证python

十折交叉验证

(1)英文名叫做10-fold cross-validation，用来测试算法准确性，是常用的测试方法。

(2)将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率(或差错率)。

(3)10次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证(例如10次10折交叉验证)，再求其均值，作为对算法准确性的估计。

例子：利用十折交叉验证计算错误分类率

(Matlab内置了由Fisher在1936年发布的关于iris的数据集，鸠尾花的分类，详见UCI链接；载入该数据集，包括means和species，分别是四维的150个样本和对应的类别)

load fisheriris

indices = crossvalind('Kfold',species,10);

cp = classperf(species);

for i = 1:10

test = (indices == i); train = ~test;

%分别取第1、2、...、10份为测试集，其余为训练集

class = classify(meas(test,:),meas(train,:),species(train,:));

classperf(cp,class,test);

end

cp.ErrorRate

%查询错误分类率

相关函数解释：

Indices = crossvalind('Kfold', N, K)

1)参数'Kfold'表明为了K折十字交叉验证，把数据集N随机分成平均的(或近似评价的)K份，Indices中为每个样本所属部分的索引(从1到K)

2)因为是随机分，因此重复调用会产生不同分法。

3)在K折十字交叉验证中，K-1份被用做训练，剩下的1份用来测试，这个过程被重复K次。

cp = classperf(truelabels)

1)classperf是评估分类器性能(Evaluate performance of classifie)函数。

2)truelabels中为每个样本对应的真实类别，创建并初始化一个空的分类器性能对象CP。

3)classperf provides an interface to keep track of the performance during the validation of classifiers. classperf creates and, optionally, updates a classifier performance object, CP, which accumulates the results of the classifier.

class = classify(sample,training,group)

1)classify是判别分析(Discriminant Analysis)函数。

2)若事先已经建立类别，则使用判别分析；若事先没有建立类别，则使用聚类分析。一般地，若已有给定的若干总体的(即若干类别)的观测资料，希望构造一个或多个判别函数，能由此函数对新的位置其所属总体的样品作出判断，从而决定其应属于哪个总体，这就是判别分析问题。

3)判别分析是利用原有的分类信息，得到判别函数(判别函数关系式，一般是与分类相关的若干个指标的线性关系式)，然后利用该函数去判断未知样品属于哪一类。因此，这是一个学习与预测的过程。常用的判别分析法有距离判别法、费歇尔判别法、贝叶斯判别法等。

4)matlab中语法：class = classify(sample,training,group) ，默认线性判别分析，将sample的每个样本进行判别，分到trainning指定的类中，返回该类表作为分类结果。还可以用参数type指定判别分析法。

classperf(cp, classout, testidx)

1)根据分类结果，更新分类器性能对象CP。

2)在十折交叉验证法中，就是重复10次，可累积得到总的错误分类率。