数据挖掘论文的一般流程(大数据导论论文)

数据挖掘通常与计算机科学有关，通过统计、在线分析处理、信息检索、机器学习、专家系统、模式识别等多种方式实现了这些目标。本论文选择了几篇数据挖掘论文范文供大家学习。

数据挖掘论文1 :

《数据挖掘中的属性选择偏差抑制算法研究》

摘要：决策树算法广泛应用于数据挖掘领域。属性选择是决策树方法挖掘效率的关键，而ID3方法和C4.5方法在选择属性时会产生一定程度的选择偏差。在此基础上，本文改进了信息增益模型，将多次对数运算的信息熵求解简化为多值求和，避免了属性选择出现偏差的可能性。决策树构建的执行速度也加快了。基于学生情况数据进行的实验研究表明，与经典ID3方法相比，本方法构建的决策树更为简洁。此外，随着数据样本数量的增加，该方法的执行时间大幅降低。

关键字：数据挖掘；决策树；选择属性；偏差抑制

信息化技术的飞速发展，人们获取信息的渠道越来越丰富，来自生产生活各个领域的数据信息压倒了人们。整理海量的数据信息，从中找到对自己有价值的信息很重要，这推动了数据挖掘技术的进步[1]。近年来，数据挖掘技术形成了重要的基于分支：决策树的挖掘方法、基于贝叶斯分类的挖掘方法、基于遗传算法的挖掘方法、基于遗传算法的挖掘方法。

这些方法中，最广泛使用的原因是具有抗干扰能力，运行速度快，适用于各种规模的数据集合[5]。决策树算法按属性对数据对象进行分类或测试，其中ID3型决策树算法是代表性挖掘算法之一[6].ID3型决策树采用分布式策略，根据熵理论用迭代分类器实现数据的自动分类[

普通皮卡丘等人[8]在密码分析中运用数据挖掘技术，构建了基于剪枝决策树的挖掘方法。该方法设计了节点代价目标函数，详细设计了节点扩展、剪枝规则，进一步提高了ID3型决策树挖掘方法的效率。 Kumar等人[9]采用二分挖掘策略代替传统的线性挖掘策略，逐步改进了决策判断的局部阈值。由此，决策树的构建效率大大提高。 Ramos等[10]将模糊决策理论引入到数据挖掘领域决策树的构建中，证实了模糊决策可以进一步提高决策树的归纳和推理能力。

基于决策树的数据挖掘方法依赖于准确的属性设置和表示，为了进一步提高决策树挖掘方法的精度，本文对决策树挖掘过程中的属性选择偏差抑制问题进行了研究，以期得到性能更好的挖掘方法。

1 .基于属性选择偏差抑制的决策树挖掘算法

在挖掘算法中，决策树的性能是否理想取决于属性选择是否理想。如果选择合适的属性，决策树就会变得复杂，其预测能力也会大幅提高。选择合适的属性并设置最精细的决策树是典型的NP问题(现有算法大部分采用启发式策略解决.这一做法的最大问题在于启发式策略选择的属性，在数据分类过程中区分能力是最准确、最准确的

在此，数据分类的信息量共有n个，分别以d1、d2、…、dn表示。可以看出，公式(1)的计算过程涉及多次对数运算，如果参与挖掘的数据量过多，该算法的计算成本和时间成本都非常高。作为决策树挖掘算法的两种代表性方法，ID3挖掘算法倾向于基于信息熵选择属性，选择结果取值较多的属性； C4.5挖掘算法基于信息熵的增益选择属性，并倾向于选择结果不均匀的属性。本文构建的决策树挖掘算法的思路是基于信息熵理论进行改进，兼顾属性选择的正确性和算法的执行速度。本算法的首要工作是根据信息熵和信息增益建立新的属性选择准则，抑制决策树算法在属性选择过程中出现的偏差，提高属性选择的合理性、准确性

同时，本算法尝试构建最精细的决策树，提高决策树的构建速度，提高决策树分类的准确率和效率。

2、实验结果与分析

为了验证本文在数据挖掘算法中提出的决策树构建方法的有效性，本文接下来的工作是对具体数据展开实验研究。实验使用的计算机硬件为amd双核、主频2.0GHz的CPU、内存大小为8GB、硬盘大小为500GB。实验中使用的计算机软件被构成为windows 7.0操作系统。 matlab编程语言和编译环境.实验的目的是为了确立为了验证本方法而构建的决策树的精练性和执行速度.实验的数据对象是某大学学生的情况，数据属性选择了奖学金状况、课程成绩、性别。

在实验中，将总样品数设为2，000个，按照15、30、60、120、240、480、960、1920顺序阶段性地扩大样品量，测定所提出方法的性能.

表1参加数据挖掘决策树构建的学生情况数据样本

为了与本方法的执行效果形成直观的对照，我们选择了经典的ID3方法作为本方法的比较算法。基于ID3方法以及表1的样本数据构建的决策树如图1所示。

图1用经典ID3方法得到的决策树

图2用本方法得到的决策树

比较图表

2和图1的决策树构建结果,可以明显看出本文方法有效地避免了属性选择的多值倾向,从而有效地精简了决策树的结构,优于ID3方法.下面,笔者再从执行时间上比较本文方法和ID3方法的差异.实验对象的样本数量从15个样本开始,逐步翻倍到30,60,120,240,480,960,1920.2种方法构建决策树的时间对比,如图3所示.

图3 2种方法的执行时间对比

从图3中可知,本文构建的方法因为避免了多次对数运算,而代之以求和运算,执行速度明显提升,大大优于ID3算法.尤其是随着数据集合规模不断扩大,这种优势更加明显,这充分说明了本文方法在速度上的优势。

3、结论

针对数据挖掘问题,本文对基于决策树的挖掘方法展开了研究.经典的ID3方法和C4.5方法在决策树构建的过程中存在属性选择多值倾向和不均匀倾向,具有一定的选择偏差.为此,在信息增益模型的基础上,笔者对信息熵的计算过程进行了进一步的改进处理,用多值求和替代了多次对数运算.这种计算原理上的改变,抑制了属性选择的偏差倾向,也提升了决策树的构建速度.实验结果表明,本文方法与经典的ID3方法相比,构建的决策树更加精炼,执行速度的优势也非常明显。