hadoop集群的三种方式,es7新特性

与以前的主要生产版本Hadoop 2和Apache Hadoop 3相比，Hadoop 3.x的新功能集成了许多重要的扩展功能。 Hadoop 3是一个提供稳定性和高质量API并可用于实际产品开发的可用版本。最低Java版本的要求从Java7更改为Java8，所有Hadoop的jar都是基于Java8编译并运行的，任何仍在使用Java7或更低版本的Java的用户都必须升级到Java8。

简要介绍Hadoop3的主要变化。

HDFS的启用erasure coding的删除修改代码是一种数据持久化存储方法，与拷贝存储相比，它节省了存储空间。例如，reed-Solomon (10，4 )的标准编码技术需要1.4倍的空间开销，而标准HDFS副本技术需要3倍的空间开销。由于删除修改的开销主要在重建和远程读取/写入中，因此通常用于存储不活动的数据(冷数据)。使用此新功能时，用户还必须考虑网络和CPU开销。

yarn timeline service v.2 (yarntimelineservicev.2 ) yarntimelineservicev.2为)1)提高时间线服务的可扩展性、可靠性， )2)提出了yarn timeline service v.2 alpha 2，而不是用于满足部署流程(flow )和聚合(aggregaaant )的Timeline Service v.1.x 现在可以提供反馈和建议，但YARN Timeline Service v.2仍然只能在测试容器中使用。

重写shell脚本Hadoop shell脚本已被重写，修复了许多长期存在的错误，并添加了新的特性。

在复盖客户端的着色客户端jar(shadedclientjars，jar )2.x版中，hadoop-client Maven artifact配置读取hadoop传输依赖于Hadoop APP应用程序的环境变量，然后

HADOOP-11804添加了新的hadoop-client-api和hadoop-client-runtime artifcat，并将hadoop依赖关系隔离在一个Jar包中，从而APP Hadoop依赖关系

引入了支持Opportunistic Containers和分布式schedulingexecutiontype的概念。这允许APP应用程序使用Opportunistic执行类型请求容器。即使在调度期间没有可用资源，此类型的容器也会分发到NM以运行程序。在这种情况下，容器将排队进入NM，等待可以运行的资源。 Opportunistic container的优先级低于默认的授权容器，如果需要，将断开资源以供授权容器使用。这样就需要提高集群的使用率。

默认情况下，Opportunistic container分配给中央RM，但添加了对当前实现为AMR协议解析器的分布式调度程序的支持。

MapReduce任务级的本地优化MapReduce添加了对映射输出收集器本地化实现的支持。 “高密度洗牌操作”(shuffle-intensive jobs )可将性能提高30%。

支持针对HDFS NameNode的多个NameNode的高可用性。第一种实现方式是提供活动的(活动) NameNode和备用的(备用) Standby ) NameNode。该体系结构通过对三个日记账节点的法定数量的复制编辑，为系统中的任一节点故障提供容错功能。

此功能通过运行更多的备用NameNode提供了更高的容错能力，以满足某些部署需求。例如，通过配置三个NameNode和五个日志节点，群集可以为两个节点故障提供容错。

多服务的默认端口已更改。在Hadoop的早期版本中，多Hadoop服务的默认端口位于Linux的临时端口范围(32768-61000 )中。也就是说，在启动过程中，由于端口冲突，一些服务器启动失败。这些冲突端口将从临时端口范围中删除，NameNode、Secondary NameNode、DataNode和KMS将受到影响。的文档已进行了适当的修改，您可以通过阅读发行说明HDFS-9427和HADOOP-12811了解所有更改的端口。

支持Microsoft azure数据lake和Aliyun对象存储系统的文件系统连接器。

Hadoop支持与Microsoft azure数据lake和Aliyun对象存储系统集成，并用作与Hadoop兼容的文件系统。

在一个datanode中管理多个磁盘时，数据节点中的内置“平衡器”(Intra-DataNode balancer )可以在执行常规写入操作时平均每个磁盘的使用量。但是，添加或更换磁盘会导致DataNode磁盘使用量严重不平衡。现在因为高清

FS均衡器关注点在于DataNode之间（inter-），而不是intra-，所以不能处理这种不均衡情况。

在hadoop3 中，通过DataNode内部均衡功能已经可以处理上述情况，可以通过hdfs diskbalancer ClI来调用。

重写了守护进程和任务的堆管理机制

针对Hadoop守护进程和MapReduce任务的堆管理机制，Hadoop3 做了一系列的修改。

HADOOP-10950 引入配置守护进程堆大小的新方法。特别地，HADOOP_HEAPSIZE配置方式已经被弃用，可以根据主机的内存大小进行自动调整。

MAPREDUCE-5785 简化了MAP的配置，减少了任务堆的大小，所以不需要再任务配置和Java可选项中明确指出需要的堆大小。已经明确指出堆大小的现有配置不会受到该改变的影响。

S3Gurad：为S3A文件系统客户端提供一致性和元数据缓存。

HADOOP-13345 为亚马逊S3存储的S3A客户端提供了可选特性：能够使用DynamoDB表作为文件和目录元数据的快速、一致性存储。

HDFS的基于路由器互联（HDFS Router-Based Federation）

HDFS Router-Based Federation添加了一个RPC路由层，为多个HDFS命名空间提供了一个联合视图。这和现有的ViewFs、HDFS Federation功能类似，区别在于通过服务端管理表加载，而不是原来的客户端管理。从而简化了现存HDFS客户端接入federated cluster的操作。

基于API配置的Capacity Scheduler queue configuration

OrgQueue扩展了capacity scheduler，提供了一种编程方法，该方法提供了一个REST API来修改配置，用户可以通过远程调用来修改队列配置。这样一来，队列的administer_queue ACL的管理员就可以实现自动化的队列配置管理。

YARN资源类型

Yarn资源模型已经被一般化，可以支持用户自定义的可计算资源类型，而不仅仅是CPU和内存。比如，集群管理员可以定义像GPU数量，软件序列号、本地连接的存储的资源。然后，Yarn任务能够在这些可用资源上进行调度。