首页 > 编程知识 正文

hadoop生态圈搭建,以下哪个不是hadoop生态项目

时间:2023-05-04 03:10:04 阅读:56991 作者:1064

一、什么是Hadoop? 1、Hadoop狭义为框架,广义为生态圈

2、开发和运行Hadoop框架、java语言实现开源软件框架,处理大数据的软件平台

3、韩东生态圈。 目前的Hadoop已经成长为一个庞大的体系,随着生态系统的发展,新出现的项目越来越多。 其中包括不是Apache主管的项目,这些项目对Hadoop来说是很好的补充或更高层次的抽象

Hadoop开源框架的核心组件

1、HDFS )分布式文件系统)解决大量数据存储

2、解决作业调度和集群资源管理框架(YARN )资源任务调度

3、MAPREDUCE (分布式运算编程框架) )解决海量数据计算

二、Hadoop的生态是什么? 1、PIG、hive :提供基于Hadoop的分布式数据仓库、基于SQL的查询数据操作

2、Apache Drill :用真正的SQL查询实现数据查询,支持多数据无SQL数据源

3、Spark :将数据处理过程放入内存中进行,速度会更快

4、h base :基于Hadoop的分布式海量数据库

5、ZOOKEEPER :分布式协调服务的基础组件

6、基于Mahout、sparkmllib:MapReduce/spark/flink等分布式计算框架的机器学习算法库

7、OOZIE :工作流调度框架、任务调度工具、能够定时处理数据等

8、sq OOP :数据导入导出工具,如在MySQL和HDFS之间使用

9、FLUME :日志数据收集框架

10、impala :基于hive的实时sql查询分析

11、Solr Lucene :搜索和索引工具

12、分布式集群管理工具,包括Ambari )监控、维护等

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。