大数据技术的基本原理,数据

1.大数据环境下的数据处理需求

大数据环境中数据源非常丰富，数据种类繁多，存储和分析挖掘数据量巨大，对数据要求高，重视数据处理的效率和可用性。但传统数据处理方法的数据采集来源单一，数据量相对较少，往往可以采用关系数据库和并行数据仓库进行处理。在通过并行计算提高数据处理速度方面，传统的并行数据库技术追求高一致性和容错性，根据CAP理论，可用性和可扩展性很难保证。传统的数据处理方法以处理器为中心，但大数据环境需要采用以数据为中心的模型，减少数据移动开销。因此，传统的数据处理方法已经不能满足大数据的需求。2.大数据的处理流程的步骤和传统数据处理流程的差异

的大数据基本处理流程与传统数据处理流程相差不大，主要区别在于大数据处理大量非结构化数据，作为各处理的一部分可以通过MapReduce等方式并行处理。大数据技术之所以能够提高数据的处理速度，是因为大数据有并行处理的好工具。这个工具就是MapReduce。大数据可以通过一种叫做MapReduce的并行处理技术来提高数据的处理速度。另一方面，MapReduce的目的是在大量廉价的服务器上实现大数据并行处理，对数据一致性的要求不高。它具有可扩展性和可用性，特别适用于大容量结构化、半结构化和非结构化数据混合处理。 MapReduce通过分布式处理传统查询、分解和数据分析并将处理任务分配给不同的处理节点，具有更强的并行处理能力。作为一种简单的并行编程模型，MapReduce还降低了并行APP应用程序的发展阈值。这是因为MapReduce是一个包含Map和Reduce两个阶段的软件框架，可以拆分大量数据、分解任务、聚合结果，并可以并行处理大量数据。例如，假设重复对包含10T大小的行的文本文件进行行处理。

图1表示现有数据处理方法的处理流程：

环境： PC1台、内存8G

步骤1 :读取文件，获取模板，并将对等点写入小文件

步骤2 :分别读取小文件，进行重复行的处理

Hadoop的处理流程如图2所示：

环境： 100台PC、8G内存

步骤1 :直线切割文件，平均存储在100台PC上

步骤2 )每个PC读取当前机器上断开的文件，进行建模计算，并写入文件

步骤3 )在每个PC上提取与自己编号相同的小文件进行数据重复处理3.大数据处理的基本流程

大数据处理流程主要包括数据采集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节如图3所示，其中数据质量贯穿全过程，每个数据处理环节都会影响大数据质量。优秀的大数据产品通常需要大量的数据规模、快速的数据处理、准确的数据分析和预测、优秀的可视化图表和简洁易懂的结果说明。本文基于这些阶段，分别分析了对大数据质量的影响及其重要的影响因素。

(1)数据采集

在数据收集过程中，数据源会影响大数据质量的完整性、完整性数据收集、一致性、准确性和安全性。关于Web数据，往往是通过Web爬虫方式收集的，为了保证收集到的数据的时效性质量，需要进行爬虫软件的时间设置。

(2)数据预处理

在大数据收集过程中，一个或多个容易受到噪声数据、数据值丢失、数据冲突等影响的数据源(如同类或异构数据库、文件系统和服务接口)是常见的，因此首先收集到的大数据来源

大数据预处理的一个环节，主要包括数据组织、数据整合、数据聚合和数据转换等内容，可以大大提高大数据的整体质量，是大数据过程质量的体现。数据清理技术包括数据不匹配检测、噪声数据识别、数据过滤和修改等方面，有利于提高大数据一致性、准确性、真实性和可用性等方面的质量；

数据整合是指将多个数据源的数据整合在一起，形成集中统一的数据库、数据多维数据集等。这个过程有助于提高大数据的完整性、一致性、安全性、可用性等质量。

数据归属是在不影响分析结果准确性的情况下降低和简化数据集的规模，包括维度归属、数据归属、数据采样等技术，该过程提高大数据的价值密度，即提高大数据存储的价值

数据转换过程包括基于规则或元数据的转换、基于模型和学习的转换等技术，可以通过转换来统一数据。这个过程有助于提高大数据的一致性和可用性。

总之，数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面的质量，而大数据预处理中的相关技术是影响大数据过程质量的重要因素

)3)数据处理与分析

1、数据处理

大数据的分布式处理技术涉及存储形式、业务数据类型等，大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。 MapReduce是一个批处理分布式计算框架，用于并行分析和处理大量数据，适用于处理各种结构化非结构化数据。分布式内存计算系统可有效降低数据读写和移动开销，提高大数据处理性能。分布式流计算系统实时处理数据流，保障大数据的时效性和价值性。

也就是说，任一大数据分散处理和计算系统都有助于提高大数据的价值性、可用性

性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统，而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。因此在进行大数据处理时，要根据大数据类型选择合适的存储形式和数据处理系统，以实现大数据质量的最优化。
2、数据分析
大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。分布式统计分析可由数据处理技术完成，分布式挖掘和深度学习技术则在大数据分析阶段完成，包括聚类与分类、关联分析、深度学习等，可挖掘大数据集合中的数据关联性，形成对事物的描述模式或属性规则，可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。
数据分析是大数据处理与应用的关键环节，它决定了大数据集合的价值性和可用性，以及分析预测结果的准确性。在数据分析环节，应根据大数据应用情境与决策需求，选择合适的数据分析技术，提高大数据分析结果的可用性、价值性和准确性质量。
（4）数据可视化与应用环节
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程，并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息，以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性，便于用户理解与使用，故数据可视化是影响大数据可用性和易于理解性质量的关键因素。
大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程，它是对大数据分析结果的检验与验证，大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。
在大数据收集、处理等一系列操作之前，通过对应用情境的充分调研、对管理决策需求信息的深入分析，可明确大数据处理与分析的目标，从而为大数据收集、存储、处理、分析等过程提供明确的方向，并保障大数据分析结果的可用性、价值性和用户需求的满足。