客户端图像步骤
1 :变量选择
假设整合数据,消除800多个不可用变量的聚类/相关分析,结合工作重点选择变量初步测试聚类,消除不影响聚类的变量
假设此时有50个变量。 首先,对这50个变量进行分级聚类,然后根据陆面系数判断取多少簇(k )最稳定。 假设发现k=10是最稳定的,这意味着将变量分类为第10类,最后分别对分配给第10类的50个变量进行剪枝。 通常,可以使用该类10中每个类的第一个变量来代表类,并获得10个变量。
以上是一种通过分层聚类降低变量维度的方法。 除此方法外,如果原始变量不要求事例,还可以在主成分分析中降低维度。 通过拉伸50个变量,构造变量和与变量相关的新变量,选择能最好地解释原模型80%左右的变量作为新变量,舍弃只解释剩下20%的变量。 也达到降维目的的组数(k )根据项目和业务需求,建立k值为(3-8)、使用K-Means算法进行分群各3-8个组类的聚类,建立相关统计量(R^2) 发现在6-7个组中,有部分组相似,组占比小的组。 认为有必要选择5个各组进行定量描绘,计算各组下的平均/分布,通过这些平均/分布与其他组或整体指标的对比,了解该组的特征