首页 > 编程知识 正文

如何学好数据挖掘,印象笔记使用教程

时间:2023-05-06 02:39:27 阅读:142162 作者:1154

截图和学习资料都来自学堂在线

关联规则

道具集和规则在传统元素之间找到联系

超市的问题

项目

Break,milk,chocolate,butter

transaction(Basket )

A non-empty subset of all items

交叉销售

捆绑销售

商品布局

处理这类问题时,可视为文本处理,这两个单词常常一起出现

支持度和可靠性条件的概率

里德-米尔

支持度是两个都买了(牛奶面包) )。

信誉度是两个都买的东西除以只买面包的东西

马克-布莱德

支持度是两个都买了(牛奶面包) )。

信赖度都是买的东西除以只买牛奶的东西

定义了两个阈值

规则的支持度必须大于

强规则(条件概率)大于

step1:找到所有频繁使用的商品数据集

step2)生成频繁的商品数据集的所有非空子集,利用非空子集找出所有可能的相关规则

误区一、一个规则强并不意味着有意义

2、两件事有关联并不意味着有因果关系

3、关联规则只是条件概率

Apriori算法的核心思想

1、无论哪个频繁项,所有非空子集都必须频繁

2、如果一个项目不频繁,那么所有的超市都一定不频繁

步骤

1、生成特定大小的数据项

2、扫描数据库,检查哪些频繁发生

3、使用得到的频繁项目,检查size 1的项目中哪个频繁返回步骤2

能够避免生成不频繁项目

需要多次读取和写入,大数据需要太长时间

使用散列和Bitmap可能会有帮助

序列模式

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。