首页 > 编程知识 正文

用户画像标签,用户画像分析模型

时间:2023-05-06 00:21:46 阅读:58266 作者:3633

step1还是说说数据源吧。 我百度能做的东西几乎都不是胡说八道,但我觉得有必要贴这张图。 这张图不是我的。 原文作者:聪明的万宝路。 知识产权还是要保护的,可以在百度上查看badmf关于如何构建用户图像的文章,找到更详细的论述。 不说多馀的话。 上面的照片。

这里是badmf所说的需要准备的所有相关用户数据。 是的,我认为这些数据对大家来说没那么难。 所以收集后,开始正式处理数据。

步骤2数据采集后处理步骤的第一步:清洗数据本来不打算说这个,但我觉得还是需要提一句,很多采集的数据不能直接使用。 需要对数据进行编码和分类,还需要去除异常值和补充缺失值。 我在这里使用的分析软件是跟着我五六年的SPSS。 (用了很多年,还不是很清楚的台灯。 假设这一步大家都结束了。

第二步:因素分析本来我也不知道为什么要做因素分析。 最近读书之后我才明白。 说明进行主要原因分析的理由。 用户图像是指将很多数据分类,分成同一组的数据所表示的人。 聚类需要考虑将哪些数据提交到聚类中呢? 例如个人收入和家庭总收入。 这是两列数据,最后可能会决定我是屌丝还是zqdxss。 要将这两个数据一起聚类吗? 恐怕不是! 聚类不建议丢弃所有高度相关的数据。 为什么? 如果高度相关的话,就会成为大致相同的数据,所以放入两次相同的数据,不是会增强该数据在所有数据中的权重吗? 这里不过是说明几个专业的统计词,这次真的可以百度。

85,85,85); text-indent:2em; font-size:16px; line-height:28.8px; background-color:rgb(253,253,253)"> 知道了为什么要因素分析,就谈谈因素分析的作用,因素分析就是把N个数据先归归类,特别相同的就是一类的了,我们选其中一些数据就可以了。这样因素分析就可以帮我们把N列数据减少到几列数据。至于因素分析怎么做,我也不在这里废话了。有一个神奇的老师叫tzdgz,他有一本SPSS实操,那里手把手教学。各位可以去自行查阅。

第三步:相关分析

我们已经把数据N列减少到重要的几个了。在开始聚类之前,还要做一件事就是看一下这些数据的相关性。一般我们选择中等相关的数据。太相关不能用原因见上一条。太不相关了也别放进去了,毕竟个人收入的数据和wndxmg的体重数据放在一起也没什么大用。相关分析怎么做也请见飘逸的小虾米的宝书。

第四步:聚类分析

好的,我们终于说到我们的主角了,聚类分析。我曾记得当初我做的时候一个大意的曲奇姐姐建议我,聚类都做一遍。虽然我还不懂她在说什么。但是就我现在的理解,给大家谈一谈。首先SPSS里有三种聚类方式。见图。

上面看到啦,这是SPSS里的3中聚类方式。我会首先做一下两步聚类。为啥呢,因为两步聚类不需要动脑子。为什么这么说。就是你丢一堆数据进去,你不需要预设你要聚类成几类。就是你可以不知道到底有几类啊,看SPSS大大的心情啊。两步聚类把数据类型分分开就可以了,别把连续的放在类别的里面。就可以了。聚类之后你会得到这样一个结果。上图。

酱紫的。具体的解释和怎么看。建议去看沈浩老师博客的聚类分析,百度一下你值得拥有。然后我们把一些重要程度很低的变量可以试着剔除一些了。这里就是第一次聚类。

然后到了第二次聚类,K均值聚类。第一步已经知道大概的聚类类别了。我这个是聚出了1类。K均值的时候有一个聚类数需要你填写。你就把两步聚类里的聚类数填进去就好啦。然后就得到了K均值聚类的结果。我们这样不断调试删除增加变量的原因是为了让聚类结果更加稳定。

最后的最后,系统聚类。你可以看到一个长得很酷的图,然后可以看看结构什么的。也是为了确定聚类结果的稳定性。具体操作也自行解决吧。

第五步:判别分析

聚类好了之后,我们是有态度有素质的团队嘛。就要看看自己聚类出来的结果准不准。就需要判别分析了,把已经聚类好的数据和待验证的数据放进去看下结果,来评判一下聚类的效果。本来我想上个图,觉得要保护我司的数据安全。就放弃了。大家百度一下贝叶斯判别,很多效果图那边。这里只讲步骤。

好啦。最后的结果如果稳定且验证后效果良好。那你的用户就真的画完了。很多人在说每个标签权重的事情。我个人是这么理解的,看贵司用户占这些分类的多少比较重要。说的更直接点,加权重给每个画像这个事情,我暂时还没有知道要怎么做。如果有牛人用R或者什么统计软件完爆我,我真的认真的说,请收我为徒。我真的很想要一个老师。为了实现我做最好的用研的梦想。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。