机器学习一般将数据分为训练数据、验证数据、测试数据三部分,训练数据和验证数据用于模型训练,用于估计模型的具体参数,测试数据用于验证模型预测的准确性。 试着把german_credit这个数据分开吧
german _ credit-read.CSV (f : ((german _ credit.CSV ) ) )。
train-createdatapartition (y=german _ credit $ credit ability,p=0.75,list=FALSE ) )。
train2 - german_credit[train,]#75%的german_credit数据作为训练数据
test2 - german_credit[-train,] #25%的german_credit数据作为测试数据
在以上命令中,createDataPartition ()是数据分割函数,对象为german_credit$Creditability,p=0.75表示训练数据所占的比例为75% train2 - german_credit[train,]、test2 - german_credit[-train,]分别制作具体的训练数据和测试数据。
使用createDataPartition的优点是可以从低熵数据集随机提取所需的训练集。 例如,我们的数据集总共有100个采样点,前50个是一种,最后50个是一种。 我们就像训练集中各有两种样本一样,必然希望从前面50个样本点中随机提取一定比例,然后从后面50个样本点中也随机提取适当比例的样本点来构成训练集。 这个手动过程涉及人的主观意识,因此不能保证完全随机化。 另一方面,createDataPartition自动从y的各个level中随机提取等比率的数据构成训练集,节省了很多。