如何数据分析,大数据统计

从所给gddmp来看，大数据已经是一个简单而大数据的事实，但最重要的现实是分析大数据，只有通过分析才能得到很多智能、深度、有价值的信息。虽然越来越多的APP应用与大数据相关，但这些大数据的属性、数量、速度、多样性等表明了大数据增长的复杂性，因此大数据的分析方法在大数据领域尤为重要，最终信息是否有价值基于这样的认识，大数据分析中普遍存在的方法论是什么呢？

1. 可视化分析。大数据分析用户既有大数据分析专家，也有公众用户，但两者对大数据分析的最基本要求是可视化分析。因为可视化分析既能直观地展现大数据的特征，又像看图说话一样非常容易被读者接受。

2. 数据挖掘算法。大数据分析的理论核心是数据挖掘算法。各种数据挖掘算法基于不同的数据类型和格式，从而能够更科学地表达数据本身所具有的特征。这是因为这些世界统计学家公认的各种统计方法(可以说是真理)可以渗透到数据内部，发挥公认的价值。另一个方面是因为有了这些数据挖掘的算法，才能更快地处理大数据。如果一个算法需要很多年才能得出结论，那么大数据也没有价值。

3. 预测性分析。大数据分析的最终应用领域之一是预测分析，从大数据中提取特征，科学建立模型，然后通过模型引入新数据，可以预测未来的数据。

4. 语义引擎。非结构化数据的多样性给数据分析带来了新的挑战，我们需要分析一系列的工具系统，提取数据。语义引擎必须设计成具有足够的人工智能来主动从数据中提取信息。

5.数据质量和数据管理。大数据分析离不开数据质量和数据管理、高质量数据和有效数据管理，无论是学术研究还是商业应用领域，都能保证分析结果的真实和价值。

大数据分析的基础就是以上五个方面，当然，在大数据分析上深入挖掘，有很多更有特点、更深入、更专业的大数据分析方法。

的技术数据采集：ETL工具将分布式异构数据源的数据(如关系数据、平面数据文件等)提取到临时中间层，然后进行清洗、转换和集成，最后进行数据仓库或数据

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，Natural Language Processing )是研究人与计算机交互的语言问题学科。处理自然语言的关键是让计算机“理解”自然语言，因此自然语言处理又称为自然语言理解(NLU，Natural Language Understanding )，也称为计算语言学) Computational Linguistics 一方面是语言信息处理的一个领域，另一方面是人工智能(AI )的核心课题之一。

统计分析：假设检验、显着性检验、差异分析、相关性分析、t检验、方差分析、卡方分析、偏相关性分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测和残差分析、岭回归分析

数据挖掘：分类(Classification )、估计(Estimation )、预测(Prediction )、关联组或关联规则) affinitygroupingorassociation

模型预测:预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据的处理1. 大数据处理之一：采集

大数据收集是指利用多个数据库接收客户端发送的数据(如Web、App或传感器格式)，用户通过这些数据库进行简单的查询和处理。例如，网店使用传统的关系数据库MySQL和Oracle等存储每个事务的数据。此外，NoSQL数据库(如Redis和MongoDB )也经常用于收集数据。

在大数据采集过程中，其主要特点和挑战是并发数高。这是因为有可能同时有成千上万的用户访问和操作。例如，在列车售票网站和淘宝上，同时访问量在高峰时期达到数百万人，因此需要在收集端引入大量的数据库进行支持。这些数据库之间如何进行负载平衡和分片确实是

需要深入的思考和设计。

2. 大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3. 大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4. 大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

End.