首页 > 编程知识 正文

关联分析的基本概念是什么,关联分析的定义

时间:2023-05-06 20:01:25 阅读:256342 作者:886

关联分析也是人的一种认知模式,这种关联规则和人的反射类似,就是在认识事物的过程中在认知中建立的关联规则。关联分析是数据挖掘里很重要的部分。

1. 频繁模式

例如一个超市每天有很多的购物记录,而且消费者的购买单品的顺序是无序的,所以一个无序的组合就是“模式”。在这些模式里有的出现频率低,有的出现频率高,一般说频率较高的通常更有指导意义,这种高频率的模式就叫做“频繁模式”。

2. 支持度和置信度

刚说了频繁模式的概念,即一般认为频率较高的模式叫频繁模式。衡量频率的指标有两个:一个是支持度,一个是置信度。
这两个指标分别指的是这种模式的有用性和确定性。设置其指标的门限值,只有置信度和支持度同时高于各自的门限值时才认为是频繁模式了,其中要注意的是置信度是有方向的。

但“支持度和置信度多高才算高呢?”可以通过专家知识来确定。如果没有专家知识可以通过尝试在所有的商品中找出所有的模式,会发现有一些模式的支持度和置信度同时比其他高很多,这时可以考虑用所有模式的支持度的平均值和置信度的平均值作为参考,适当作为一些作为阈值做过滤。这样过滤下来的模式就可以作为频繁模式进一步的研究。

如果单纯的支持度或置信度高能否可以直接被认为是频繁模式呢?
如果支持度高置信度低,说明模式频繁,但是“转化率”低。而如果支持度比较低,但是转化率比较高,说明这种模式在所有的模式里很平常,甚至不能算“频繁”。通常都会选择支持度和置信度都高于阈值的门限的模式作为频繁模式。

3. Apriori算法

找出频繁集实际上是找出同时满足最小支持度和最小置信度的模式。这里简单介绍以下几个步骤:
(1)先设置一个最小支持度作为阈值门限进行扫描,因为同时过滤最小支持度和最小置信度这两个操作来说,最小支持度的查找更为简单一些。
(2)扫描所有满足最小支持度的单品。在这个过程中可以发现,大量小于阈值的单品被过滤掉,这个过程在算法中叫“剪枝”。再逐级查找模式时,有很多单品可以完全置之不理了。
(3)查找满足条件2项的模式。
(4)查找满足条件的3项模式,这个过程同步骤 (3)。

4. 关联分析与相关性分析

利用Apriori能够过滤出关联度较高的模式,但不能对相关性做出解释。这里引入一个有关相关规则的分析。
提升度是一种简单的关联度度量,也是一种比较容易实现的统计方法。

Lift(A,B)=P(B|A)P(B)

当相关性是1时,也就是在全样本空间中A和B是没有关系的当相关性大于1时,B和A是正相关的,也就是A的发生促进了B的发生。当相关性小于1时,B和A是负相关的。也就是A的发生抑制了B的发生。 5. 稀有模式和负模式

前面说的都是频繁模式,但也有一些情况下更关心“不频繁”的模式,那就是稀有模式和负模式。
稀有模式:是支持度远低于设定的支持度的模式,在实际生产中可以考虑用支持度的倒序的功能去找那些支持度极低的模式。
负模式:两种模式是负相关的。一般来说,如果x和y都是频繁的,但是很少或者不一起出现,那么就说x和y是负相关的,x和y组成的模式也是负相关模式。如果x和y组成的模式支持度远远小于x的支持度与y的支持度的乘积,那么就说x和y是强负相关的。

参考:《白话大数据与机器学习》

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。