首页 > 编程知识 正文

hadoop集群的三种方式,es7新特性

时间:2023-05-04 16:40:41 阅读:56591 作者:1199

与以前的主要生产版本Hadoop 2和Apache Hadoop 3相比,Hadoop 3.x的新功能集成了许多重要的扩展功能。 Hadoop 3是一个提供稳定性和高质量API并可用于实际产品开发的可用版本。 最低Java版本的要求从Java7更改为Java8,所有Hadoop的jar都是基于Java8编译并运行的,任何仍在使用Java7或更低版本的Java的用户都必须升级到Java8。

简要介绍Hadoop3的主要变化。

HDFS的启用erasure coding的删除修改代码是一种数据持久化存储方法,与拷贝存储相比,它节省了存储空间。 例如,reed-Solomon (10,4 )的标准编码技术需要1.4倍的空间开销,而标准HDFS副本技术需要3倍的空间开销。 由于删除修改的开销主要在重建和远程读取/写入中,因此通常用于存储不活动的数据(冷数据)。 使用此新功能时,用户还必须考虑网络和CPU开销。

yarn timeline service v.2 (yarntimelineservicev.2 ) yarntimelineservicev.2为)1)提高时间线服务的可扩展性、可靠性, )2)提出了yarn timeline service v.2 alpha 2,而不是用于满足部署流程(flow )和聚合(aggregaaant )的Timeline Service v.1.x 现在可以提供反馈和建议,但YARN Timeline Service v.2仍然只能在测试容器中使用。

重写shell脚本Hadoop shell脚本已被重写,修复了许多长期存在的错误,并添加了新的特性。

在复盖客户端的着色客户端jar(shadedclientjars,jar )2.x版中,hadoop-client Maven artifact配置读取hadoop传输依赖于Hadoop APP应用程序的环境变量,然后

HADOOP-11804添加了新的hadoop-client-api和hadoop-client-runtime artifcat,并将hadoop依赖关系隔离在一个Jar包中,从而APP Hadoop依赖关系

引入了支持Opportunistic Containers和分布式schedulingexecutiontype的概念。 这允许APP应用程序使用Opportunistic执行类型请求容器。 即使在调度期间没有可用资源,此类型的容器也会分发到NM以运行程序。 在这种情况下,容器将排队进入NM,等待可以运行的资源。 Opportunistic container的优先级低于默认的授权容器,如果需要,将断开资源以供授权容器使用。 这样就需要提高集群的使用率。

默认情况下,Opportunistic container分配给中央RM,但添加了对当前实现为AMR协议解析器的分布式调度程序的支持。

MapReduce任务级的本地优化MapReduce添加了对映射输出收集器本地化实现的支持。 “高密度洗牌操作”(shuffle-intensive jobs )可将性能提高30%。

支持针对HDFS NameNode的多个NameNode的高可用性。 第一种实现方式是提供活动的(活动) NameNode和备用的(备用) Standby ) NameNode。 该体系结构通过对三个日记账节点的法定数量的复制编辑,为系统中的任一节点故障提供容错功能。

此功能通过运行更多的备用NameNode提供了更高的容错能力,以满足某些部署需求。 例如,通过配置三个NameNode和五个日志节点,群集可以为两个节点故障提供容错。

多服务的默认端口已更改。 在Hadoop的早期版本中,多Hadoop服务的默认端口位于Linux的临时端口范围(32768-61000 )中。 也就是说,在启动过程中,由于端口冲突,一些服务器启动失败。 这些冲突端口将从临时端口范围中删除,NameNode、Secondary NameNode、DataNode和KMS将受到影响。 的文档已进行了适当的修改,您可以通过阅读发行说明HDFS-9427和HADOOP-12811了解所有更改的端口。

支持Microsoft azure数据lake和Aliyun对象存储系统的文件系统连接器。

Hadoop支持与Microsoft azure数据lake和Aliyun对象存储系统集成,并用作与Hadoop兼容的文件系统。

在一个datanode中管理多个磁盘时,数据节点中的内置“平衡器”(Intra-DataNode balancer )可以在执行常规写入操作时平均每个磁盘的使用量。 但是,添加或更换磁盘会导致DataNode磁盘使用量严重不平衡。 现在因为高清

FS均衡器关注点在于DataNode之间(inter-),而不是intra-,所以不能处理这种不均衡情况。

在hadoop3 中,通过DataNode内部均衡功能已经可以处理上述情况,可以通过hdfs diskbalancer ClI来调用。

重写了守护进程和任务的堆管理机制

针对Hadoop守护进程和MapReduce任务的堆管理机制,Hadoop3 做了一系列的修改。

HADOOP-10950 引入配置守护进程堆大小的新方法。特别地,HADOOP_HEAPSIZE配置方式已经被弃用,可以根据主机的内存大小进行自动调整。

MAPREDUCE-5785 简化了MAP的配置,减少了任务堆的大小,所以不需要再任务配置和Java可选项中明确指出需要的堆大小。已经明确指出堆大小的现有配置不会受到该改变的影响。

S3Gurad:为S3A文件系统客户端提供一致性和元数据缓存。

HADOOP-13345 为亚马逊S3存储的S3A客户端提供了可选特性:能够使用DynamoDB表作为文件和目录元数据的快速、一致性存储。

HDFS的基于路由器互联(HDFS Router-Based Federation)

HDFS Router-Based Federation添加了一个RPC路由层,为多个HDFS命名空间提供了一个联合视图。这和现有的ViewFs、HDFS Federation功能类似,区别在于通过服务端管理表加载,而不是原来的客户端管理。从而简化了现存HDFS客户端接入federated cluster的操作。

基于API配置的Capacity Scheduler queue configuration

OrgQueue扩展了capacity scheduler,提供了一种编程方法,该方法提供了一个REST API来修改配置,用户可以通过远程调用来修改队列配置。这样一来,队列的administer_queue ACL的管理员就可以实现自动化的队列配置管理。

YARN资源类型

Yarn资源模型已经被一般化,可以支持用户自定义的可计算资源类型,而不仅仅是CPU和内存。比如,集群管理员可以定义像GPU数量,软件序列号、本地连接的存储的资源。然后,Yarn任务能够在这些可用资源上进行调度。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。