首页 > 编程知识 正文

hadoop生态圈英文,hadoop生态圈分类

时间:2023-05-06 19:55:11 阅读:56971 作者:3353

hadoop生态圈的组件Zookeeper :一种开源分布式APP应用程序协调服务,允许基于Zookeeper实现同步服务、配置维护和命名服务。 Flume :一种高可用性、可靠、分散的大量日志收集、聚合和传输的系统。 h base—一个分布式的面向列的开源数据库,利用hadoophdfs作为存储系统。 Hive :一种基于Hadoop的数据仓库工具,用于将结构化数据文件映射到数据库表。 提供简单的sql查询功能,可以将sql语句转换为MapReduce任务并执行。 Sqoop :是将关系数据库中的数据导入Hadoop中的HDFS,还是将HDFS中的数据导入关系数据库? “Hadoop”和“Hadoop生态系统”Hadoop是指Hadoop框架本身; hadoop生态系统不仅包括hadoop,还包括zookeeper、Flume、Hbase、Hive、Sqoop等辅助框架,确保hadoop框架正常高效地运行。

安装apache开源Hadoop的简单过程是使用根帐户登录并更改IP,重命名主机名并更改SSH,不使用密码登录并关闭防火墙安装jdk,然后再安装hdk hadoop-env.sh、core-site.xml、mapred-site hdfs-site.xml配置hadoop环境变量hadoop namenode-format启动节点start-all.sh Hadoop

)1) fs.default fs : HDFS ://cluster1(域名),其中值指向默认HDFS路径。

)2) Hadoop.tmp.dir :/export/data/Hadoop _ tmp,这里的路径默认为存储NameNode、DataNode、secondaryNamenode等数据的路径用户还可以分别指定这三种类型的节点的目录

)3) ha.zookeeper.quorum : Hadoop 10133602181、Hadoop 10233602181、Hadoop10:2181,这里是zookeeper群集的地址和端口。 请注意,数量必须是奇数,并且至少是三个节点。 您只需设置jdk的安装路径,如Hadoop-env.sh:export Java _ home=/usr/local/jdkhdfs-site.XML。

)1) dfs.replication:他已确定系统中文件块的数据备份数,默认值为3个。

)2) dfs.data.dir:datanode节点存储在文件系统目录中。

(3) dfs.name.dir是namenode节点存储hadoop文件系统信息的本地系统路径。 mapred-site.xml :

MapReduce.framework.name : yarn指定mr在yarn上运行。 Hadoop群集中的Hadoop需要启动的进程1 ) namenodeHadoop中的主服务器,用于管理文件系统的名称空间和对存储在##标题对象群集中的文件的访问,以及metadatation

2 )辅助名称这提供了周期检查点和清理任务,而不是namenode的冗馀守护程序。 帮助NN整合编辑日志,缩短NN的启动时间。

3 ) DataNode负责管理连接到节点的存储(群集中可以有多个节点)。 为每个要存储数据的节点运行一个datanode守护进程。

4 )资源管理器(jobtracker ) jobtracker负责安排DataNode上的工作。 每个DataNode都有一个TaskTracker,用于执行实际工作。

5 )节点管理器(任务跟踪者)执行任务。

6 )如果DDFSZKFailoverController是高可用性的,它负责监视NN的状态,并及时将状态信息写入ZK。 通过在独立线程上周期性调用NN上的特定接口来获取NN的健康状况。 FC也有选择谁作为活动NN的权利。 目前选择策略很简单,因为最多只有两个节点。

7 )日志节点为高可用性时,保存namenode的editlog文件。

Hadoop的几个默认端口及其含义DFS.NameNode.http-address 336050070辅助名称节点端口号: 50090 DFS.datanode.address 3360070

1组2组满,3组1029751482!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。