一、什么是Hadoop? 1、Hadoop狭义为框架,广义为生态圈
2、开发和运行Hadoop框架、java语言实现开源软件框架,处理大数据的软件平台
3、韩东生态圈。 目前的Hadoop已经成长为一个庞大的体系,随着生态系统的发展,新出现的项目越来越多。 其中包括不是Apache主管的项目,这些项目对Hadoop来说是很好的补充或更高层次的抽象
Hadoop开源框架的核心组件
1、HDFS )分布式文件系统)解决大量数据存储
2、解决作业调度和集群资源管理框架(YARN )资源任务调度
3、MAPREDUCE (分布式运算编程框架) )解决海量数据计算
二、Hadoop的生态是什么? 1、PIG、hive :提供基于Hadoop的分布式数据仓库、基于SQL的查询数据操作
2、Apache Drill :用真正的SQL查询实现数据查询,支持多数据无SQL数据源
3、Spark :将数据处理过程放入内存中进行,速度会更快
4、h base :基于Hadoop的分布式海量数据库
5、ZOOKEEPER :分布式协调服务的基础组件
6、基于Mahout、sparkmllib:MapReduce/spark/flink等分布式计算框架的机器学习算法库
7、OOZIE :工作流调度框架、任务调度工具、能够定时处理数据等
8、sq OOP :数据导入导出工具,如在MySQL和HDFS之间使用
9、FLUME :日志数据收集框架
10、impala :基于hive的实时sql查询分析
11、Solr Lucene :搜索和索引工具
12、分布式集群管理工具,包括Ambari )监控、维护等