山东省生态环境大数据,spack

大数据生态简介
数据（BigData）是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征：Volume(大量)、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）。
大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具，比如：Oracle是数据库、Apache Tomcat 是 Web 服务器。不过，Hadoop就有些复杂，Hadoop 是大量工具集合，这些工具可以协同工作来完成特定的任务。可以说Hadoop是一个数据管理系统，将海量的结构化和非结构化数据聚集在一起，这些数据涉及传统企业数据栈的几乎每一个层次，其定位是在数据中心占据核心地位。
spark简介
Spark是一种计算框架，没有资源调度、数据存储等功能。需要和生态怕孤独的时光的其它框架配合使用。
spark优点
1、易用性好,Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。
2、通用性强,Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理，它们都是由AMP实验室提供，能够无缝的集成并提供一站式解决平台。