大数据研究的数据(通过大数据分析)

今天，我将向大家介绍大数据和大数据分析的基本知识。在最后一部分，我们将讨论大数据，在下一部分，我们将讨论大数据分析。

首先，我们来看看大数据的基本概念。

大数据是一个比较抽象的新兴事物，所以目前还没有明确统一的定义。不同的定义对大数据的特征有不同的偏见。大数据的定义很难达成共识。一个合乎逻辑的选择是接受所有大数据定义，其中每个定义都反映了大数据的一个特定方面。

IDC将大数据定义为[15]:大数据一般涉及两种或两种以上的数据形式。它收集了超过100TB的数据，是一个高速实时的数据流。或者从小数据开始，但数据每年会增长60%以上。这个定义给出了一个量化标准，但只强调了数据本身的特点，比如数据量大、类型多、增长快。

目前普遍认为大数据有四个基本特征： Data规模大、种类多样、数据处理速度快、数据Volume密度低，即所谓的四V特征。这些特点使得大数据不同于传统的数据概念。大数据的概念不同于“海量数据”，后者只强调数据量，而大数据不仅仅是用来描述大量的数据，还进一步指出了数据的复杂形式、数据的快速时间特性、数据分析处理的专业化处理，以及最终获取有价值信息的能力。

麦肯锡全球研究所给出的定义是：在采集、存储、管理和分析方面，远远超出传统数据库软件工具能力的大规模数据收集。它具有四个特点：数据规模大、数据流通快、数据类型多样、价值密度低。

mndjj和无奈的环眼虫桃编制的《大数据时代》中的大数据是指所有数据都用于分析处理，而不是随机分析(抽样调查)。大数据的5V特性(IBM提出):体量(质量)、速度(高速)、多样性(多样性)、价值(低价值密度)、真实性(真实性)。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些有意义的数据进行专业化处理。换句话说，如果把大数据比作一个行业，这个行业盈利的关键在于提高数据的“处理能力”，通过“处理”实现数据的“增值”。

接下来，我们来看看大数据的特点。

(一)大量的数据

大数据聚合的数据量非常大。根据IDC的定义，至少要有100TB以上的数据可供分析。数据量大是大数据的基本属性。

(二)数据类型多样

数据的多样性和复杂性是大数据的重要特征。在过去，虽然有大量的数据，但通常是预先定义的结构化数据。结构化数据是以方便人类和计算机存储、处理和查询的方向对事物进行抽象的结果。在抽象过程中，忽略了一些在具体应用中无法考虑的细节，提取出有用的信息。

(三)数据处理速度快

快速数据处理是大数据区别于传统海量数据处理的重要特征之一。随着各种传感器和互联网等信息获取和传播技术的快速发展和普及，数据的生成和发布变得越来越容易，生成数据的方式也越来越多，个人甚至成为数据生成的主体之一。数据以爆炸的形式快速增长，新的数据不断涌现，快速增长的数据量要求数据处理的速度得到相应的提高，这样大量的数据才能得到有效的利用，否则，不断增长的数据不仅不能给解决问题带来优势，反而会带来问题。同时，数据并不是一成不变的，而是在互联网中不断流动，通常这类数据的价值会随着时间的推移而迅速降低。如果数据没有得到有效的处理，就会失去价值，大量的数据就没有意义。对不断增长的海量数据进行实时处理的需求是大数据与传统海量数据处理技术的关键区别之一。

(四)数据值密度低

低数据价值密度是大数据关注的非结构化数据的一个重要属性。传统的结构化数据，根据特定的应用，对事物进行相应的抽象，每一条数据都包含了应用中需要考虑的信息。但是为了得到事物的所有细节，大数据直接使用原始数据，保持数据的原貌，通常不采样数据，直接使用所有数据。由于抽样和抽象的减少，呈现所有的数据和所有的细节可以分析更多的信息，但也引入了很多无意义的信息，甚至是错误的信息。因此，与具体应用相比，大数据关注的非结构化数据的价值密度较低。但大数据的低数据密度意味着与具体应用相比，有效信息少于整个数据，信息是否有效也是相对的。对于某些应用程序，无效的信息成为其他应用程序最关键的信息，数据的价值也是相对的。有时候，一个微不足道的细节数据可能会产生巨大的影响。

(5)数据的真实性

最后，我们来看看大数据的处理步骤。

与传统的海量数据处理流程类似，大数据的处理也包括获取与特定应用相关的有用数据，并将数据聚合成便于存储、分析和查询的形式。分析数据相关性，获取相关属性；以适当的方式显示数据分析的结果等。

4b17a7c3ac7f2d0d4d81?from=pc">

1)采集

大数据的采集是指利用多个数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2)导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3)统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大。

4)挖掘与前面统计和分析过程

不同的是，大数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测的效果，从而实现一些高级别数据分析的需求。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

5)可视化

将原始数据流以图像形式表示，更直观地展现数据本身的属性以及特点，帮助人们理解数据，同时找出包含在海量数据中的规律或者信息。