用户画像标签,用户画像分析模型

step1还是说说数据源吧。我百度能做的东西几乎都不是胡说八道，但我觉得有必要贴这张图。这张图不是我的。原文作者：聪明的万宝路。知识产权还是要保护的，可以在百度上查看badmf关于如何构建用户图像的文章，找到更详细的论述。不说多馀的话。上面的照片。

这里是badmf所说的需要准备的所有相关用户数据。是的，我认为这些数据对大家来说没那么难。所以收集后，开始正式处理数据。

步骤2数据采集后处理步骤的第一步：清洗数据本来不打算说这个，但我觉得还是需要提一句，很多采集的数据不能直接使用。需要对数据进行编码和分类，还需要去除异常值和补充缺失值。我在这里使用的分析软件是跟着我五六年的SPSS。 (用了很多年，还不是很清楚的台灯。假设这一步大家都结束了。

第二步：因素分析本来我也不知道为什么要做因素分析。最近读书之后我才明白。说明进行主要原因分析的理由。用户图像是指将很多数据分类，分成同一组的数据所表示的人。聚类需要考虑将哪些数据提交到聚类中呢？例如个人收入和家庭总收入。这是两列数据，最后可能会决定我是屌丝还是zqdxss。要将这两个数据一起聚类吗？恐怕不是！聚类不建议丢弃所有高度相关的数据。为什么？如果高度相关的话，就会成为大致相同的数据，所以放入两次相同的数据，不是会增强该数据在所有数据中的权重吗？这里不过是说明几个专业的统计词，这次真的可以百度。

85,85,85); text-indent:2em; font-size:16px; line-height:28.8px; background-color:rgb(253,253,253)"> 知道了为什么要因素分析，就谈谈因素分析的作用，因素分析就是把N个数据先归归类，特别相同的就是一类的了，我们选其中一些数据就可以了。这样因素分析就可以帮我们把N列数据减少到几列数据。至于因素分析怎么做，我也不在这里废话了。有一个神奇的老师叫tzdgz，他有一本SPSS实操，那里手把手教学。各位可以去自行查阅。

第三步：相关分析

我们已经把数据N列减少到重要的几个了。在开始聚类之前，还要做一件事就是看一下这些数据的相关性。一般我们选择中等相关的数据。太相关不能用原因见上一条。太不相关了也别放进去了，毕竟个人收入的数据和wndxmg的体重数据放在一起也没什么大用。相关分析怎么做也请见飘逸的小虾米的宝书。

第四步：聚类分析

好的，我们终于说到我们的主角了，聚类分析。我曾记得当初我做的时候一个大意的曲奇姐姐建议我，聚类都做一遍。虽然我还不懂她在说什么。但是就我现在的理解，给大家谈一谈。首先SPSS里有三种聚类方式。见图。

上面看到啦，这是SPSS里的3中聚类方式。我会首先做一下两步聚类。为啥呢，因为两步聚类不需要动脑子。为什么这么说。就是你丢一堆数据进去，你不需要预设你要聚类成几类。就是你可以不知道到底有几类啊，看SPSS大大的心情啊。两步聚类把数据类型分分开就可以了，别把连续的放在类别的里面。就可以了。聚类之后你会得到这样一个结果。上图。

酱紫的。具体的解释和怎么看。建议去看沈浩老师博客的聚类分析，百度一下你值得拥有。然后我们把一些重要程度很低的变量可以试着剔除一些了。这里就是第一次聚类。

然后到了第二次聚类，K均值聚类。第一步已经知道大概的聚类类别了。我这个是聚出了1类。K均值的时候有一个聚类数需要你填写。你就把两步聚类里的聚类数填进去就好啦。然后就得到了K均值聚类的结果。我们这样不断调试删除增加变量的原因是为了让聚类结果更加稳定。

最后的最后，系统聚类。你可以看到一个长得很酷的图，然后可以看看结构什么的。也是为了确定聚类结果的稳定性。具体操作也自行解决吧。

第五步：判别分析

聚类好了之后，我们是有态度有素质的团队嘛。就要看看自己聚类出来的结果准不准。就需要判别分析了，把已经聚类好的数据和待验证的数据放进去看下结果，来评判一下聚类的效果。本来我想上个图，觉得要保护我司的数据安全。就放弃了。大家百度一下贝叶斯判别，很多效果图那边。这里只讲步骤。

好啦。最后的结果如果稳定且验证后效果良好。那你的用户就真的画完了。很多人在说每个标签权重的事情。我个人是这么理解的，看贵司用户占这些分类的多少比较重要。说的更直接点，加权重给每个画像这个事情，我暂时还没有知道要怎么做。如果有牛人用R或者什么统计软件完爆我，我真的认真的说，请收我为徒。我真的很想要一个老师。为了实现我做最好的用研的梦想。