首页 > 编程知识 正文

r语言样本估计总体,R语言数据分析方法与实验

时间:2023-05-06 05:29:34 阅读:189539 作者:778

机器学习一般将数据分为训练数据、验证数据、测试数据三部分,训练数据和验证数据用于模型训练,用于估计模型的具体参数,测试数据用于验证模型预测的准确性。 试着把german_credit这个数据分开吧

german _ credit-read.CSV (f : ((german _ credit.CSV ) ) )。

train-createdatapartition (y=german _ credit $ credit ability,p=0.75,list=FALSE ) )。

train2 - german_credit[train,]#75%的german_credit数据作为训练数据

test2 - german_credit[-train,] #25%的german_credit数据作为测试数据

在以上命令中,createDataPartition ()是数据分割函数,对象为german_credit$Creditability,p=0.75表示训练数据所占的比例为75% train2 - german_credit[train,]、test2 - german_credit[-train,]分别制作具体的训练数据和测试数据。

使用createDataPartition的优点是可以从低熵数据集随机提取所需的训练集。 例如,我们的数据集总共有100个采样点,前50个是一种,最后50个是一种。 我们就像训练集中各有两种样本一样,必然希望从前面50个样本点中随机提取一定比例,然后从后面50个样本点中也随机提取适当比例的样本点来构成训练集。 这个手动过程涉及人的主观意识,因此不能保证完全随机化。 另一方面,createDataPartition自动从y的各个level中随机提取等比率的数据构成训练集,节省了很多。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。