mapreduce项目实战案例,MapReduce编程实践

实验的目的

构建MapReduce编程模型，配置Eclipse、MavenHadoop集群和启动顺序MapReduce的word count APP应用书中的代码练习，编写MapReduce程序

实验要求学会用Maven编写工程项目，结合运行环境和运行条件编写课程课件，自己输入运行WordCount程序，得出结果

在Hadoop集群中提取运行结果

五台独立虚拟机

主机之间有有效的网络连接，网络属性设置完成

每个主机至少2G，磁盘50G

所有主机上都安装了Centos 7.4_64

Zookeeper群集的安装和部署已完成

所有主机上都安装了JDK

软件版本：选择Hadoop的2.7.3版。软件包名称为hadoop-2.7.3.tar.gz

集群计划：

Hadoop的高可用性完全分布式模式包括HDFS的主节点和数据节点、MapReduce的主节点和任务节点、数据同步通信节点、主节点切换控制节点共6种服务节点，其中HDFS的主节点

共享同一主机Cluster-03、Cluster-04和Cluster-05，数据同步通信节点可以使用群集中的任何主机，但由于存储元数据备份，因此通常与主节点使用同一主机

在高可用性完全分布式模式下，主节点必须满足备用基本要求，因此作为主节点需要两台以上的主机。完全分布式模式需要满足备份和数据处理可以分散并行于数据的基本要求，因此需要两台以上的主机作为HDFS的数据节点和MapReduce的任务节点，同时数据同步通信节点的工作原理与Zookeeper相同

具体规划如下：一、构建MapReduce编程模型

MapReduce编程实例-WordCount

二、配置Eclipse和Maven，配置pom.xml依赖文件导入Hadoop配置文件、Hadoop群集和启动

四. Hadoop -网络认证

五.代码程序

WordCountApp.java

使用sortapp.javasecondarysortapp.Java六、mvn clean package-DskipTests编程hadoop-1.0-SNAPSHOT.jar七、MapReduce字数统计

浏览器显示