首页 > 编程知识 正文

hadoop四大框架,hadoop框架概念

时间:2023-05-03 18:59:33 阅读:165579 作者:4381

文章目录序言一、什么是Hadoop? 二、Hadoop优势三、Hadoop配置1.HDFS (hadoopdistributedfilesystem )2. yarn (yetanotherresourcenegotiator )3.MapReduce总结

前言我很久没有在csdn上写文章了,现在我完全从Java开发转向了大数据开发。 今天不用学习大数据,就介绍大家听过的东西。 ——Hadoop

一.什么是Hadoop? 百度百科里的说明很多,所以简单地说明一下。 Hadoop是由Apachefoundation开发的分布式系统基础架构。 用户可以在不知道分布式基础细节的情况下开发分布式程序。 最大限度地利用集群的威力进行高速运算和存储。 但是,我们经常有的Hadoop不就是Hadoop本身吗? Hadoop生态圈包含hive、zookeeper、kafka、flume、hbase等许多大数据组件。 二、Hadoop优势高可靠性:因为Hadoop的基础有多个数据副本,即使是有Hadoop的计算方

即使素材或存储器发生故障,数据也不会丢失。 可扩展性更高:可以在群集之间分配任务数据,并轻松扩展数千个节点。 效率:在MapReduce的思想下,Hadoop并行工作以加速任务

物理速度。 高弹性:可以自动重新分配失败的任务。 三. Hadoop配置1.HDFS (硬盘分布式文件系统)分布式文件系统。

主要体系结构: namenode(nn ) )存储文件,包括文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、每个文件的块列表和块所在的数据节点datanode(dn ) :将文件块数据和块数据校验和保存到本地文件系统。 安全命名(2nn )—每隔一段时间备份命名元数据。 此处使用的url网络请求的数据。

2 .雅虎资源管理器(yarn )硬件资源管理器。

主要体系结构:

资源管理器(RM )管理整个群集资源的节点管理器(nm )管理各个节点的服务器资源应用程序主程序(am )管理各个任务的执行的容器(Container )内容在相当独立的服务器上,封装了执行任务所需的资源3 .并行处理3.MapReduce Map阶段输入数据的Reduce阶段Map的结果的这篇文章总结了Hadoop的概要,关于技术知识最后,在Hadoop1.x的时候yarn不在。 yarn是在Hadoop2.x之后加入的。 原来Hadoop1.x的资源调度也是由mapreduce进行的。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。