首页 > 编程知识 正文

数据挖掘apriori算法,关联规则算法问题

时间:2023-05-05 01:59:55 阅读:136085 作者:4641

组织和编写简单易懂的Apriori算法:

相关规则你听说过尿布和啤酒吧;

有一个有趣的现象,就是在一家超市里,尿布和啤酒并排出售。 但是,这项奇怪的措施同时增加了尿布和啤酒的销售额。 这不是开玩笑,而是发生在美国沃尔玛连锁店超市的真实案例,受到商家的欢迎。 沃尔玛拥有世界上最大的数据仓库系统,为了准确了解顾客在店里的购买习惯,沃尔玛对顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品是什么。 各店铺详细的原始交易数据集中在沃尔玛的数据仓库中。 根据这些原始交易数据,沃尔玛利用数据挖掘方法分析和挖掘这些数据。 一个意外的发现是:“和尿布一起购买最多的商品是啤酒! 经过大量的实际调查和分析,揭示了隐藏在“尿布和啤酒”背后的美国人的行为模式。 在美国,年轻的父亲下班后,经常去超市买婴儿尿布,有30%~40%的人会为自己买啤酒。 这种现象是美国震动姐姐们经常叫丈夫下班后为孩子买尿布,丈夫们买了尿布后,马上带回了喜欢的啤酒

从此例中关联规则

关联规则(Association Rules )是一个事物与其他事物的相互依存性和关联性,是从大量数据中挖掘出有价值数据项之间相关关系的数据挖掘的重要技术。

常见购物篮分析

这个过程通过顾客发现购物篮中不同商品之间的联系来分析顾客的购买习惯。 通过了解哪些商品经常同时被顾客购买,这一相关发现有助于零售商制定营销策略。 其他APP应用还包括价目表设计、商品促销、商品排放和基于购买模式的客户分类。

可以从数据库关联规则来分析,例如形式“由于某些事件的发生而引起另外一些事件的发生”

本文主要介绍关联规则的基本算法,Apriori算法

(一)相关指标:

1、支持度

支持度是一个百分比,是指某个商品组合出现的次数与总次数的比率。 支持度越高,表示此组合出现的频率越高。 例如,如果出现了3次“牛奶面包”,那么在这5份订单中,“牛奶面包”的支持度为3/5=0.6。

2、置信度

可靠度是条件概念,发生a时,b发生的概率是多少。 也就是说,粗壮的蘑菇购买商品a,购买商品b的概率是多少。 例如,信任度(牛奶啤酒)=2/4=0.5意味着购买牛奶时,有50%的概率购买啤酒。

3、提升度

等级提高度表示“对于商品a的出现、商品b的出现概率的提高”的程度。 计算公式为提高度(AB )=可靠度) AB ) /支持度) b )

所以提高度有三种可能性:

(1)提高程度: AB )1)表示有所提高;

(2)上升度) AB )=1:表示有无上升,也没有下降;

)3)上升度(AB )1)显示有下降。

(二)Apriori的工作原理

Step1:K=1,计算k项集的支持度;

Step2:排除小于最小支持的项集;

Step3:项集为空时,对应于K-1项集的结果为最终结果。

否则,重复k=k 1,1-3步骤。

Apriori在计算过程中存在以下缺点。

(1)可能会大量生成候选集。 由于采用了序列组合方式,所以组合了所有可能的项集。

)2)每次计算都需要重新扫描数据集,以计算每个项集的支持度。

因此,Apriori算法会浪费很多计算空间和计算时间。 因此,改进FP-Growth 算法,并且特点是创建FP树以存储频繁的项集。 在创建之前删除不满足最低支持的项目,以减少存储容量; 在整个生成过程中只遍历数据集两次,从而大大减少了计算量。

算法很漂亮,很难理解,所以举例说明:

(三)实例说明

算法推导:

我们的数据集d包含四条记录: { 1,3,4 }、{ 2,3,5 }、{ 1,2,3,5 }和{ 2,5 }

1 .最小支持度设置: 50%

2 .为数据集频繁生成一个项集,并计算其支持度

数据集表明,{1}、{2}、{3}、{4}、{5},对应的出现次数为2、3、3、1、3,其支持度为2/4=0.5,3/4=0.75,3/4=

3 .排除支持度0.5的项集,将保留{1}、{2}、{3}、{5}

4 .频繁产生两个小故事((步骤3中剩下的清爽酸奶) )。

{ 1,2 },{ 1,3 },{ 1,5 },{ 2,3 },{ 2,5 },{ 3,5 }第一次迭代在此时结束

5 .进入第二次迭代

与{ 1,2 }、{ 1,3 }、{ 1,5 }、{ 2,3 }、{ 2,5 }、{ 3,5 }相对应的出现次数为1,2,1,2,3,2,其支持度为0.25,0.5,5

排除6.0.5的支持度项集,其余{ 1,3 }、{ 2,3 }、{ 2,5 }、{ 3,5 }

7 .频繁生成三个项集

{ 1,2,3 },{ 1,2,5 },{ 1,3,5 },{ 2,3,5 }第二次迭代在此时结束

8 .进入第三次迭代

{ 1,2,3 }、{ 1,2,5 }、{ 1,3,5 }、{ 2,3,5 }对应的次数为1,2,1,1,其支持度为0.25、0.5、0.25、0.25

排除9.0.5的项集,其余{2、3、5}

10 .此时,公式3不支持频繁生成4项集,迭代结束。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。