爬取网页数据(物联网十大应用范畴)

1 .技术流程从数据本身考虑，数据挖掘通常需要八个步骤：数据清理、数据转换、数据挖掘的实施过程、模式评估和知识表示。

)信息采集)根据确定的数据分析对象对数据分析所需的特征信息进行抽象，选择合适的信息采集方法，将采集到的信息存储在数据库中。对于大量数据，选择合适的数据存储和受管理的数据仓库很重要。

)数据集成)将不同来源、格式、特征性质的数据逻辑或物理有机地集中起来，为企业提供全面的数据共享。

)3)数据规约：执行大量的数据挖掘算法，即使是少量的数据也需要很长时间，进行商业运营数据挖掘时数据量往往非常大。数据规约技术可用于获得数据集的规约要小得多，但接近于保持原始数据的完整性，这表明规约后执行数据挖掘的结果与规约前的执行结果相同或几乎相同。

)4)数据清理)由于数据库中的数据不完整(感兴趣的属性可能缺少属性值)、有噪声的(可能包含错误的属性值)以及不一致的)，数据库中的数据具有完整、准确、一致的数据信息

(5)数据转换)通过平滑、数据概化、归一化等方法将数据转换为适合数据挖掘的格式。在实数型数据中，通过概念的分层和数据的离散化来变换数据也是重要的一步。

(6)数据挖掘过程)根据数据仓库中的数据信息，选择合适的分析工具，应用统计方法、实例推理、决策树、规则推理、模糊集，甚至神经网络、遗传算法方法处理信息，实现

(7)模型评估：从商业角度，行业专家验证数据挖掘结果的正确性。

)知识表示)将数据挖掘中获得的分析信息可视化并呈现给用户，或者作为新知识存储在知识库中，供其他APP应用程序使用。

数据挖掘过程是一个重复循环的过程，每个步骤必须重新调整并执行，除非达到预期目标。所有的数据挖掘工作都不需要这里列出的所有步骤。例如，如果某项工作不存在多个数据源，则可以省略步骤(2)数据集成步骤。

步骤(3)数据规约)4)数据清理)5)数据转换统称为数据预处理。在数据挖掘中，至少60%的费用用于步骤(1)的信息收集阶段，至少60%以上的精力和时间可能用于数据预处理

2 .操作方法神经网络

神经网络以其鲁棒性、自组织自适应、并行处理、分布存储、高级容错等特性非常适合于解决数据挖掘问题，分类、预测、模式识别的前馈式神经网络反馈神经网络模型，分别用于联想记忆和优化计算，以hopfield离散和连续模型为代表；以art模型、koholon模型为代表的聚类自组织映射方法。神经网络方法的缺点是“黑匣子”性，人们很难理解网络学习和决策的过程。

遗传算法

遗传算法是一种基于生物自然选择和遗传机制的随机搜索算法。以遗传算法所具有的隐式并行性、易于与其他模型结合等性质，被应用于数据挖掘。

sunil已经成功开发了基于遗传算法的数据挖掘工具，利用该工具对两个飞机失事的实际数据库进行了数据挖掘实验，结果表明遗传算法是进行数据挖掘的有效方法之一遗传算法的应用也体现在与神经网络、粗集等技术的结合上。利用遗传算法优化神经网络结构时，在不增加误码率的情况下删除多馀的连接和隐藏层单元；将遗传算法和bp算法相结合训练神经网络，从网络中提取规则等。但遗传算法算法复杂，局部收敛极小的早期收敛问题尚未解决。

决策树的方法

决策树是预测模型中常用的算法，通过有目的地对大量数据进行分类，从中找出有价值的潜在信息。其主要优点是说明简单，分类速度快，特别适用于大规模数据处理。最有影响力、最快的决策树方法是quinlan提出的基于著名信息熵的id3算法。其主要问题是id3是非增量学习算法。 id3决策树是单变量决策树，复杂概念难以表达；同性之间相互关系的强调不够；不耐噪音。针对上述问题，出现了很多优秀的改进算法，如schlimmer和fisher，设计了id4增量式学习算法；迷你羊、细心的天鹅等提出了ible算法等。

粗集方法

粗集理论是研究不准确不确定知识的数学工具。粗集方法有几个优点。无需提供附加信息，简化输入信息表达空间的算法简单，易于操作。粗集处理的对象是二维关系表那样的信息表。但是，粗集的数学基础是集合论，难以直接处理连续的属性。现实信息表中普遍存在连续属性。因此，连续属性离散化是制约粗集理论实际应用的难点。

掩盖正例排斥反例的方法

那就是利用涵盖一切正例、拒绝一切反例的思想来寻找规则。首先从正例集合中选出一个物种，逐一比较到反例集合中。如果字段与由取值组成的选择器兼容，则将其截断；否则将其保留。用这一想法循环所有正例的种子，就得到正例的规则(选择子的协调式)。典型算法包括michalski的aq11方法、wrdyx的改进aq15方法和其他ae5方法。

统计分析方法

数据库字段项目之间存在函数关系(函数式表示的准确度的关系)和相关关系(函数式表示的准确度的关系)和函数式表示不了，但相关确定性的关系)这两种关系，这些分析可以使用统计学方法。也就是说，可以使用统计学原理分析数据库中的信息。常用统计(大量数据中的最大值、最小值、总和、

平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。ssdds等人在传统模糊理论和概率统计的基础上，提出了定性定量不确定性转换模型--云模型，并形成了云理论。

挖掘对象

根据信息存储格式，用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及internet等。

3.常用数据挖掘软件

SAS EM

IBM旗下SPSS公司的Modeler

神舟通用公司的K-Miner

美林数据技术股份有限公司的Tempo