首页 > 编程知识 正文

hadoop教程(hadoop分布式环境搭建)

时间:2023-05-03 05:51:42 阅读:84751 作者:2751

Hadoop简介

Hadoop是由Apachefoundation开发的分布式系统基础架构。

用户可以在不知道分布式基础细节的情况下开发分布式程序。 充分利用集群的威力进行高速运算和存储。

Hadoop实现了Hadoop分布式文件系统,简称HDFS。 HDFS具有容错性强的特点,被设计为部署在低成本的硬件上。 它还提供了高吞吐量(high throughput )以访问APP应用程序中的数据,非常适合具有大数据集的APP应用程序。

HDFS和MapReduce是Hadoop框架最核心的设计。 HDFS为大量数据提供存储,MapReduce为大量数据提供计算。

Hadoop生态系统

广义的Hadoop,一般被称为Hadoop生态系统,如下。

这些软件在Hadoop生态系统中的作用:

HDFS:Hadoop的分布式文件系统。 发现HBase、MapReduce等软件在HDFS上运行,可以说是Hadoop生态系统的基础。 h base :谷歌分布式数据库Bigtable的开源实现。 可靠、性能高、面向列、可伸缩的分布式数据库,主要用于存储非结构化和半结构化的松散数据。 为了提高数据的可靠性和健壮性,发挥HBase处理大数据量等功能,HDFS作为HBase基础的数据存储方式被普遍使用。 MapReduce :分布式计算框架。 sq OOP :一种支持RDBMS和Hadoop的Hive和HBase之间数据传输的工具。 Hive :一种基于Hadoop的数据仓库工具,提供了完整的sql查询功能,可以将结构化的数据文件映射到数据库表,并将sql语句转换为MapReduce任务并执行。 pig :这是一个基于Hadoop的大型数据分析平台,提供了一种叫做Pig Latin的SQL-LIKE语言。 该语言的编译器将类SQL的数据分析请求转换为一系列优化的MapReduce运算。 ZooKeeper :适用于大型分布式系统的可靠协调系统,提供配置维护、命名服务、分布式同步、组服务等功能。 Avro :基于二进制的数据传输性能卓越的中间件。 Hadoop的其他项目,例如HBase和Hive的客户端和服务器端的数据传输也采用了该工具。 Avro是数据序列化的系统。 Avro可以转换为数据结构或便于存储或传输对象的格式。 Avro旨在支持数据密集型APP,适用于远程或本地存储和交换大数据。

HDFS 系统架构

HDFS采用了主/从结构的模型,一个HDFS集群包括一个名称节点(NameNode )和几个数据节点) DataNode )。

“名称节点”(NameNode )充当中央服务器,管理文件系统的名称空间和客户端对文件的访问。 HDFS群集中只有唯一的名称节点。 数据节点(DataNode )一般是指一个节点执行一个数据节点进程,处理文件系统客户机的读写请求,在名称节点的统一调度下,进行块的创建、删除、复制等操作

因为HDFS是使用Java语言开发的,所以任何支持JVM的计算机都可以部署名称节点和数据节点。

配置Hadoop群集后,可以通过浏览器访问http://[NameNodeIP]:9870来检查HDFS文件系统。 通过此Web界面,可以显示当前文件系统中每个节点的分布信息。

HBase系统架构

HBase系统体系结构如下,包括客户机、Zookeeper服务器、主服务器、区域服务器。 HBase通常用作基于HDFS的数据存储。

HBase服务器集群包含一个主服务器和多个区域服务器。 Master是HBase集群的“普通蜻蜓”,需要知道Region服务器的状态。

虽然在HBase中可以启动多个Master,但是Zookeeper有助于选出一个Master作为集群的普通蜻蜓,通过确保唯一的Master随时都在运行,可以避免Master单点失效的问题,从而避免了故障的发生。

Region服务器是HBase中最核心的模块,它维护分配给自己的Region,并响应用户的读写请求。

Store是Region服务器的核心。 每个存储区对应于表中一个列系列的存储。 每个存储区都包含一个MemStore缓存和多个存储文件。

HBase采用HLog,在系统发生故障时,可以恢复到正确的状态。 HLog是磁盘上的日志文件,记录了所有更新操作。

HBase系统为每个区域服务器配置一个日志文件。 这是写前日志。 这意味着用户更新的数据必须在写入MemStore缓存之前记录下来。

此外,由于Pig和Hive为HBase提供了高级语言支持,HBase的数据统计处理变得非常简单。 Sqoop为HBase提供了方便的RDBMS数据导入功能,使传统数据库数据向HBase的迁移变得非常容易。

注意: Hadoop安装完成后,只包括HDFS和MapReduce,不包括HBase,因此必须继续在Hadoop上安装HBase。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。