民事违法行为举例5个,用户画像聚类分析法

需要收集用户的特征吗？

聚类分析变量的选择原则是以哪个变量的组合为前提，使类内部的差异尽可能小，即同质性高，类之间的差异尽可能大，即同质性低，且变量之间不存在高相关性

典型的用户特征变量如下：

()

人口学变量：年龄、性别、婚姻、教育程度、职业、收入等。用人口学变量分类，了解各类人口的需求有何不同。

())为

用户目标：用户为什么使用此产品？为什么要在网上购买？了解不同用途用户的特性，并确定目标用户的需求。

() )为

用户使用场景：用户在什么时候、在什么情况下使用此产品？了解用户在不同场景中的偏好/行为差异。

() )为

用户行为数据：例如使用频率、使用时间、顾客单价等。对用户的活动级别、用户价值级别等进行分类。

)

态度量表(看消费偏好、价值观等不同价值观、不同生活方式群体的消费取向和行为差异。需要多少样品量？

没有限制。通常与实用化有关。如果必须施加理论限制，则通常认为样本的数量大于集群数量的平方。

需要聚类的数据量少(100 )时，可以考虑3种方法(层次聚类法、均值聚类法、两阶段聚类法)。优先考虑层次聚类法。这是因为分层聚类法的树状图更直观、更容易解释，而且分层聚类法的提供方法、距离计算方式、标准化方式的丰富性也是其他两种方法无法比拟的。

需要聚类的数据量较大(1000 )时，应考虑选择快速聚类法或两步聚类法。

数据量在100~1000之间，理论上目前的计算条件可以满足任何聚类方法的要求，但结果的展示很困难，如树状图不能直接观察。应用定量方法还是定性方法？

聚类分析是一种定量分析方法，但聚类分析结果的解释需要结合定性资料进行研究。

1 .聚类分析的定义和用途

聚类分析(Cluster Analysis )是一种探索性的数据分析方法，根据指标/变量的数据结构特征，使类内部的差异尽可能小，即同质性高，类间的差异尽可能大2 .聚类分析的方法

层次聚类法(Hierarchical )又称系统聚类法。可以同时处理分类变量和连续变量，但不能同时处理这两种变量类型。不需要指定类别数。聚类结果之间存在嵌套或层次关系。

均值聚类法(k均值聚类法)又称快速聚类法。对于连续变量，也可以处理有顺序的分类变量，虽然运算很快，但需要指定类数。 k均值聚类法并不自动对数据进行标准化，而是首先需要自己进行标准化分析。

两步聚类法(Two-Step Cluster ) :可同时处理分类变量和连续变量，自动识别最佳类别数，结果稳定。在仅对连续变量进行聚类的情况下，在描述记录之间的距离性时可以使用欧几里得距离，也可以使用对数似然(Log-likelihood )，使用前者与传统的聚类方法没有太大区别；但是，在进行聚类有离散变量的情况下，只能用对数似然值来表现记录之间的差异。聚类指标为有序类变量时，Two-Step Cluster给出的分类结果没有均值聚类的明确性。这是因为k均值算法将聚类指标变量假设为连续变量。 3 .聚类分析步骤

研究目的的确定：研究问题的关注点是什么，有事先分类数吗…

问卷编制(态度文李克特项目、秩序类别…

确定分析变量：问卷变量类型、连续or分类、有序类别or无序类别、是否包含在后台数据中，变量之间相关性较低…

聚类分析(聚类分析方法的选择、数据标准化方法、聚类分类数的确定…

结果检查)类别之间的差异分析，是否符合常识…

聚类结果的解释(结合类别命名、类别差异、定性资料进行解释…