hadoop生态圈英文,hadoop生态圈分类

hadoop生态圈的组件Zookeeper :一种开源分布式APP应用程序协调服务，允许基于Zookeeper实现同步服务、配置维护和命名服务。 Flume :一种高可用性、可靠、分散的大量日志收集、聚合和传输的系统。 h base—一个分布式的面向列的开源数据库，利用hadoophdfs作为存储系统。 Hive :一种基于Hadoop的数据仓库工具，用于将结构化数据文件映射到数据库表。提供简单的sql查询功能，可以将sql语句转换为MapReduce任务并执行。 Sqoop :是将关系数据库中的数据导入Hadoop中的HDFS，还是将HDFS中的数据导入关系数据库？ “Hadoop”和“Hadoop生态系统”Hadoop是指Hadoop框架本身； hadoop生态系统不仅包括hadoop，还包括zookeeper、Flume、Hbase、Hive、Sqoop等辅助框架，确保hadoop框架正常高效地运行。

安装apache开源Hadoop的简单过程是使用根帐户登录并更改IP，重命名主机名并更改SSH，不使用密码登录并关闭防火墙安装jdk，然后再安装hdk hadoop-env.sh、core-site.xml、mapred-site hdfs-site.xml配置hadoop环境变量hadoop namenode-format启动节点start-all.sh Hadoop

)1) fs.default fs : HDFS ://cluster1(域名)，其中值指向默认HDFS路径。

)2) Hadoop.tmp.dir :/export/data/Hadoop _ tmp，这里的路径默认为存储NameNode、DataNode、secondaryNamenode等数据的路径用户还可以分别指定这三种类型的节点的目录

)3) ha.zookeeper.quorum : Hadoop 10133602181、Hadoop 10233602181、Hadoop10:2181，这里是zookeeper群集的地址和端口。请注意，数量必须是奇数，并且至少是三个节点。您只需设置jdk的安装路径，如Hadoop-env.sh:export Java _ home=/usr/local/jdkhdfs-site.XML。

)1) dfs.replication:他已确定系统中文件块的数据备份数，默认值为3个。

)2) dfs.data.dir:datanode节点存储在文件系统目录中。

(3) dfs.name.dir是namenode节点存储hadoop文件系统信息的本地系统路径。 mapred-site.xml :

MapReduce.framework.name : yarn指定mr在yarn上运行。 Hadoop群集中的Hadoop需要启动的进程1 ) namenodeHadoop中的主服务器，用于管理文件系统的名称空间和对存储在##标题对象群集中的文件的访问，以及metadatation

2 )辅助名称这提供了周期检查点和清理任务，而不是namenode的冗馀守护程序。帮助NN整合编辑日志，缩短NN的启动时间。

3 ) DataNode负责管理连接到节点的存储(群集中可以有多个节点)。为每个要存储数据的节点运行一个datanode守护进程。

4 )资源管理器(jobtracker ) jobtracker负责安排DataNode上的工作。每个DataNode都有一个TaskTracker，用于执行实际工作。

5 )节点管理器(任务跟踪者)执行任务。

6 )如果DDFSZKFailoverController是高可用性的，它负责监视NN的状态，并及时将状态信息写入ZK。通过在独立线程上周期性调用NN上的特定接口来获取NN的健康状况。 FC也有选择谁作为活动NN的权利。目前选择策略很简单，因为最多只有两个节点。

7 )日志节点为高可用性时，保存namenode的editlog文件。

Hadoop的几个默认端口及其含义DFS.NameNode.http-address 336050070辅助名称节点端口号： 50090 DFS.datanode.address 3360070

1组2组满，3组1029751482！