首页 > 编程知识 正文

因变量转换为哑变量,分类变量 哑变量

时间:2023-05-05 15:33:57 阅读:259833 作者:3380

代码示例  features = ["Pclass", "Sex", "SibSp", "Parch"] # 筛选出分类变量用来建模 X = pd.get_dummies(train[features]) # 把分类变量转化为哑变量 哑变量详解

定义:哑变量(DummyVariable),也叫虚拟变量

目的:主要用于处理多分类变量,把不能量化的多分类变量量化每个哑变量对模型的影响都细化,提高模型精准率

具体操作

假如“职业因素”列,共有5个分类变量:学生、农民、工人、公务员、其他。转化为4列0、1变量,从而提高模型精度。

哪些情况下要设置哑变量?

无序多分类变量

例如,“血型”分为A、B、O、AB四个类型,如果直接赋值为1、2、3、4,它在数学上是有从小到大的顺序关系的,而且还是等距的。这样和现实情况不符,需要转化为哑变量。

有序多分类变量

例如,疾病的严重程度,分为轻、中、重度,如果赋值为1、2、3(等距)或者1、2、4(等比),这样虽然可以体现等级关系,但与现实不符。此时可以转化为哑变量。

连续性变量

年龄很细,年龄增加一岁,对模型的影响很小,没有太大的实际意义。我们可以把连续变量离散化,以10岁作为一个年龄段划分,0~10、11~20、21~30等等,用1、2、3、4表示。此时可以转化为哑变量,使得分类变量对模型的影响足够充分

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。