python数据挖掘与分析实战第二版,mmdetection训练自己的数据集

主要是模型训练阶段的知识及其一般交叉验证/CV在样本集选择和模型建立中的作用

关于正负样本比例，在二分类中一般为1:3的正负样本的比例状态；

训练集、测试集、验证集的比率三个概念容易混淆。获得正负样本合并数据集，按8:2的比率放置20%的数据，对剩下的80%的数据进行建模。 (训练集验证集)，开始建立模型必须对训练集和验证集进行分割，可以用k-turn方法全部进行k分割分别建模。每次建模时都会发生(k-1 )

培训集：测试集：验证集的典型百分比为6:2:2或5:2.5:2.5

可将数据分割中的交集验证用作数据集分割，也可在模型建模过程中用于参数化

(Kold ) k )折叠交叉检测中，将样本数据随机k分割)，每次随机选择中小学部分作为训练集，剩下的一部分作为测试集。这个回合结束后，随机重新选择中小学部分训练数据。在几个回合(小于k )后，选择损失函数评估的最佳模型和参数。具有可以降低一次随机化的偶然性，提高泛化能力的优点。但是，k形转弯还有另一个问题。因为是随机的划分，所以在划分的过程中很有可能正好划分出范畴。例如，在第一回合的训练集中，所有的标签都为0，在第二回合的测试集中，所有的标签都为1。这对模型训练不太好。其中，在某个模型上学习时无法学习测试集的分类特性。在KFold是这样的。