小说阅读题型及答题技巧笔记(圈考点和教材完全解读)

连续数据如何分组——寻找cut-off值的几种方法

关于连续数据的划分，基于以下情况。

1 .根据专业和实际经验

这主要适用于一些常规变量。样本量少时，请尽量不要细分。最好只分成两种。否则，估计结果往往不可靠。请注意，即使你的样本量足够大，对照组种类的例数也绝对不能少。否则，所有的估计结果都是不稳定的。

2 .利用广义可附加模型结合专业进行划分

广义可加模型对应广义线性模型，后者属于常说的线性回归、逻辑回归模型的范畴，但广义可加模型中的自变量和因变量大多不是线性关系，因此该模型的构建主要用于探索自变量和因变量的关系

有关具体的软件操作，请参阅《白话统计》 P42。

3 .通过roc曲线找出cut-off值进行分类

用ROC曲线寻找cut-off值的前提，必须有明确的二分类变量的结尾。 ROC曲线以灵敏度为y轴，以1-特异度为x轴，将不同边界值产生的点连接而形成。

利用ROC曲线寻找cut-off值的基准很简单，ROC曲线中最接近左上角的点是cut-off值，很多软件直接给出该值。关于具体的软件操作方法，请详细参照《白话统计》 P43-44。

4 .按最大选择等级统计量进行划分

变量为生存数据、定量数据等时，ROC曲线无力，此时必须用最大选择秩统计量寻找阈值。

5 .根据分类树进行划分

分类树的划分主要基于熵这一概念，熵反映的是不确定度或不纯度。熵越大表示不纯度越高，也就是变量越不纯。因此，分类树的思想是计算划分前和划分后的熵，调查划分后的熵值是否下降。

6 .聚类分析

聚类分析的整体思路根据距离进行分类，两点距离比较近的分为一类，距离远的分为另一类。总的来说，各算法遵循的一个总原则是保证被分类的各类别之间的距离尽可能远，类别之间的距离比较近，聚类分析完全根据数据本身进行分类，与专业知识完全无关，因此被分类的类别

射频：《白话统计》 xy dxs着作