首页 > 编程知识 正文

apriori算法的框架(Apriori算法计算关联规则)

时间:2023-05-06 00:35:19 阅读:97648 作者:3445

关联规则挖掘是一种基于规则的机器学习算法,能够在大型数据库中找到感兴趣的关系。其目的是利用一些度量来区分数据库中的强规则,也就是说关联规则挖掘是用于知识发现,而不是预测,因此是一种无监督的机器学习方法。

关联规则是XY形式的蕴涵,这意味着Y可以从X中派生出来,其中X和Y分别称为先行(或左侧,LHS)和后继(共识或右侧,RHS)。

关联规则挖掘在大量数据中发现了项目集之间有趣的关联,许多研究者对挖掘关联规则做了大量的研究。他们的工作包括优化原有算法,如引入随机抽样和并行的思想,从而提高算法挖掘规则的效率,促进关联规则的应用。

关联规则的类型

基于规则中处理的变量的类别

关联规则可以分为布尔型和数字型。布尔关联规则处理的值都是离散和分类的,这显示了这些变量之间的关系。数值关联规则可以与多维关联规则或多层关联规则相结合,对数值字段进行处理,动态划分并处理数据。当然,数值关联规则也可以包含类别变量。

基于规则中数据的抽象层次结构

它可以分为单层关联规则和多层关联规则。在单层关联规则中,所有的变量都没有考虑到真实数据有很多不同的层次。在多层次关联规则中,充分考虑了数据的多层次性。

基于规则中涉及的数据的维度

关联规则可以分为一维和多维。在一维关联规则中,我们只涉及数据的一个维度。例如,如果用户购买的项目在多维关联规则中,则需要处理的数据将涉及多个维度。

基于的经典频率集算法

关联规则的核心是基于两阶段频率集思想的递归算法。关联规则分为一维、单层和布尔关联规则。所有支持度大于最小支持度的项目集称为频繁项目集,简称频率集。

算法的基本思想

首先,找出所有的频率集,这些项目集的频率至少与预定义的最小支持度一样高。然后,从频率集生成强关联规则,该规则必须满足最小支持度和最小可信度。

改进的频率集算法

算法包括哈希、事务压缩、哈希、分区、采样、动态项目集计数和FP- tree频率集算法。

多层关联规则挖掘

对于很多应用来说,由于数据分布的分散性,很难在最详细的数据层面找到一些强关联规则。虽然在更高层次上获得的规则可能是更常见的信息,但它们对一个用户来说是常见的信息,但对另一个用户来说不一定如此。因此,数据挖掘应该提供多层次挖掘的功能。

多层关联规则的分类

根据规则涉及的层次,多层次关联规则可以分为同层次关联规则和层次间关联规则。

多维关联规则挖掘

对于多维数据库,除了维内关联规则之外,还有一种多维关联规则。在挖掘维度间关联规则和混合维度关联规则时,也要考虑不同的字段类型:类别类型和数值类型。原来的算法可以处理各种领域。对于数字字段,在执行之前需要进行一些处理。

未来展望

对于关联规则挖掘领域的发展,我们可以从以下几个方向进行深入研究:

1.如何在处理海量数据时提高算法效率?

2.快速更新数据挖掘算法的进一步研究。

3.在挖掘过程中,提供一种与用户交互的方法,将用户的领域知识结合在其中。

4.如何处理关联规则中的数值域?

5.生成结果的可视化。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。