十大数据分析算法
1.C4.5(分类决策树)
决策树算法需要解决的两个主要问题:
1 )先选择哪个属性,后选择哪个属性进行分裂? 2 )树什么时候停止生长?
其中,C4.5算法求解如下。
1 )以信息增益(熵差)率选择属性分裂2 )在树木构建过程中进行剪枝操作,降低拟合风险。
现在引出“信息熵”的概念。 “熵”是衡量混乱程度的指标,越混乱熵越大,是衡量样本集合纯度的最常见指标。 在节点上区分使用哪个属性时,希望节点上的属性纯度大,也就是说熵更小。 3358 www.Sina.com/http://www.Sina.com/http://www.Sina.com /
测量事务之间的关联度
2.K-均值算法
以前在博客上写了3.SVM