首页 > 编程知识 正文

民事违法行为举例5个,用户画像聚类分析法

时间:2023-05-05 23:32:30 阅读:58386 作者:183

需要收集用户的特征吗?

聚类分析变量的选择原则是以哪个变量的组合为前提,使类内部的差异尽可能小,即同质性高,类之间的差异尽可能大,即同质性低,且变量之间不存在高相关性

典型的用户特征变量如下:

()

人口学变量:年龄、性别、婚姻、教育程度、职业、收入等。 用人口学变量分类,了解各类人口的需求有何不同。

())为

用户目标:用户为什么使用此产品? 为什么要在网上购买? 了解不同用途用户的特性,并确定目标用户的需求。

() )为

用户使用场景:用户在什么时候、在什么情况下使用此产品? 了解用户在不同场景中的偏好/行为差异。

() )为

用户行为数据:例如使用频率、使用时间、顾客单价等。 对用户的活动级别、用户价值级别等进行分类。

)

态度量表(看消费偏好、价值观等不同价值观、不同生活方式群体的消费取向和行为差异。 需要多少样品量?

没有限制。 通常与实用化有关。 如果必须施加理论限制,则通常认为样本的数量大于集群数量的平方。

需要聚类的数据量少(100 )时,可以考虑3种方法(层次聚类法、均值聚类法、两阶段聚类法)。 优先考虑层次聚类法。 这是因为分层聚类法的树状图更直观、更容易解释,而且分层聚类法的提供方法、距离计算方式、标准化方式的丰富性也是其他两种方法无法比拟的。

需要聚类的数据量较大(1000 )时,应考虑选择快速聚类法或两步聚类法。

数据量在100~1000之间,理论上目前的计算条件可以满足任何聚类方法的要求,但结果的展示很困难,如树状图不能直接观察。 应用定量方法还是定性方法?

聚类分析是一种定量分析方法,但聚类分析结果的解释需要结合定性资料进行研究。

1 .聚类分析的定义和用途

聚类分析(Cluster Analysis )是一种探索性的数据分析方法,根据指标/变量的数据结构特征,使类内部的差异尽可能小,即同质性高,类间的差异尽可能大2 .聚类分析的方法

层次聚类法(Hierarchical )又称系统聚类法。 可以同时处理分类变量和连续变量,但不能同时处理这两种变量类型。 不需要指定类别数。 聚类结果之间存在嵌套或层次关系。

均值聚类法(k均值聚类法)又称快速聚类法。 对于连续变量,也可以处理有顺序的分类变量,虽然运算很快,但需要指定类数。 k均值聚类法并不自动对数据进行标准化,而是首先需要自己进行标准化分析。

两步聚类法(Two-Step Cluster ) :可同时处理分类变量和连续变量,自动识别最佳类别数,结果稳定。 在仅对连续变量进行聚类的情况下,在描述记录之间的距离性时可以使用欧几里得距离,也可以使用对数似然(Log-likelihood ),使用前者与传统的聚类方法没有太大区别; 但是,在进行聚类有离散变量的情况下,只能用对数似然值来表现记录之间的差异。 聚类指标为有序类变量时,Two-Step Cluster给出的分类结果没有均值聚类的明确性。 这是因为k均值算法将聚类指标变量假设为连续变量。 3 .聚类分析步骤

研究目的的确定:研究问题的关注点是什么,有事先分类数吗…

问卷编制(态度文李克特项目、秩序类别…

确定分析变量:问卷变量类型、连续or分类、有序类别or无序类别、是否包含在后台数据中,变量之间相关性较低…

聚类分析(聚类分析方法的选择、数据标准化方法、聚类分类数的确定…

结果检查)类别之间的差异分析,是否符合常识…

聚类结果的解释(结合类别命名、类别差异、定性资料进行解释…

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。