r语言样本估计总体,R语言数据分析方法与实验

机器学习一般将数据分为训练数据、验证数据、测试数据三部分，训练数据和验证数据用于模型训练，用于估计模型的具体参数，测试数据用于验证模型预测的准确性。试着把german_credit这个数据分开吧

german _ credit-read.CSV (f : ((german _ credit.CSV ) ) )。

train-createdatapartition (y=german _ credit $ credit ability，p=0.75，list=FALSE ) )。

train2 - german_credit[train，]#75%的german_credit数据作为训练数据

test2 - german_credit[-train，] #25%的german_credit数据作为测试数据

在以上命令中，createDataPartition ()是数据分割函数，对象为german_credit$Creditability，p=0.75表示训练数据所占的比例为75% train2 - german_credit[train，]、test2 - german_credit[-train，]分别制作具体的训练数据和测试数据。

使用createDataPartition的优点是可以从低熵数据集随机提取所需的训练集。例如，我们的数据集总共有100个采样点，前50个是一种，最后50个是一种。我们就像训练集中各有两种样本一样，必然希望从前面50个样本点中随机提取一定比例，然后从后面50个样本点中也随机提取适当比例的样本点来构成训练集。这个手动过程涉及人的主观意识，因此不能保证完全随机化。另一方面，createDataPartition自动从y的各个level中随机提取等比率的数据构成训练集，节省了很多。