截图和学习资料都来自学堂在线
关联规则
道具集和规则在传统元素之间找到联系
超市的问题
项目
Break,milk,chocolate,butter
transaction(Basket )
A non-empty subset of all items
交叉销售
捆绑销售
商品布局
处理这类问题时,可视为文本处理,这两个单词常常一起出现
支持度和可靠性条件的概率
里德-米尔
支持度是两个都买了(牛奶面包) )。
信誉度是两个都买的东西除以只买面包的东西
马克-布莱德
支持度是两个都买了(牛奶面包) )。
信赖度都是买的东西除以只买牛奶的东西
定义了两个阈值
规则的支持度必须大于
强规则(条件概率)大于
step1:找到所有频繁使用的商品数据集
step2)生成频繁的商品数据集的所有非空子集,利用非空子集找出所有可能的相关规则
误区一、一个规则强并不意味着有意义
2、两件事有关联并不意味着有因果关系
3、关联规则只是条件概率
Apriori算法的核心思想
1、无论哪个频繁项,所有非空子集都必须频繁
2、如果一个项目不频繁,那么所有的超市都一定不频繁
步骤
1、生成特定大小的数据项
2、扫描数据库,检查哪些频繁发生
3、使用得到的频繁项目,检查size 1的项目中哪个频繁返回步骤2
能够避免生成不频繁项目
需要多次读取和写入,大数据需要太长时间
使用散列和Bitmap可能会有帮助
序列模式