hadoop完全分布式,hadoop mapreduce

Kettle8.2和Hadoop2.7.3集成、Hadoop伪分布式安装二、Kettle配置三、案例演示说明：

环境： Windows虚拟机操作系统： centos7Hadoop版本和模式： Hadoop2.7.3伪分布式环境Kettle版本和模式： kettle8.2独立模式1、Hadoop伪分布式安装

安装步骤请参考另一篇博文。

3359 blog.csdn.net/sujian gming/article/details/88047006？ spm=1001.2014.3001.5501此处列出了主要步骤。

将hadoop-2.7.3.tar.gz上传到tools目录，然后运行以下命令进行解压缩安装

tar-zvxf Hadoop-2.7.3.tar.gz-c/training /环境变量设置：

vi ~/.bash_profile添加以下信息：

导出Hadoop _ home=/training/Hadoop-2.7.3导出路径=$ path : $ Hadoop _ home/kqdxxm 3360 $ Hadoop _ home

source ~/.bash_profile认证是否有效：

执行：只要hdfs或hadopo有相关信息即可

配置伪分布式环境：

ssh-keygen -t rsa (直接回车3次) CD (/. ssh/ssh-copy-id-iid _ RSA.pub root @ Hadoop 01 )主机名可更改为自己的主机名) Hadoop

运行以下命令打开并编辑文件： vi hadoop-env.sh在打开的文件中，更改jdk的路径以更改为虚拟机安装的路径export Java _ home=/training/JDK1.8.0_ 171。配置如下-表示数据块冗馀默认为3，伪方差可以设置为1-- property named fs.replication/name value1/value/property！指示是否打开HDFS权限检查。默认值为true---- property named fs.permissions/namevaluefalse/value/property更改core-site.xml，配置如下：构成3358ww NameNode的通信地址9000是RPC的默认通信端口property name fs.default fs/namevaluehdfs 3360//Hadoop 01:9000/value！ -- bigdata表示主机名，并写入你们自己的主机名----propertypropertynamehadoop.tmp.dir/name value/training/Hadoop-2.7 .

创建mapred-site.xml，然后运行以下命令： CP/training/Hadoop-2.7.3/etc/Hadoop/mapred-site.XML.template/training/Hadoop-2.7.3/etc -注意：必须在配置期间添加丙--property name MapReduce.framework.name/namevalueyarn/value/property -历史服务器端地址---

:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value></property><property><name>mapreduce.app-submission.cross-platform</name><value>true</value></property> 配置yarn-site.xml文件，配置如下：
注意：下面的配置信息需要在configuration节点中间添加哈<property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.log.server.url</name><value>http://hadoop001:19888/jobhistory/logs</value></property> 格式化：HDFS(NameNode)hdfs namenode -format 查看是否格式化成功,成功的信息提示如下： common.Storage: Storage directory /training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted. 启动Hadoop（完全启动）start-all.sh 命令行验证，执行：jps 命令
看看有没有如下五个进程：NameNodeDataNodeReourceManagerNodeManagerSecondaryNameNode web界面进行验证:
HDFS分布式文件系统界面：http://bigdata:50070 #bigdata指虚拟机名称 Yarn容器运行界面：http://hadoop001:8088 #bigdata指虚拟机名称停止Hadoop，可以执行如下命令：stop-all.sh 注意事项
1）若想在windows浏览器中通过输入主机名称+端口号的形式访问界面，则需要设置主机名与ip地址的映射关系（针对虚拟机而言）
2）如何在windows上设置虚拟机主机名称与IP地址映射关系，如下所示：进入到C:WindowsSystem32driversetc 文件夹，找到hosts文件，对它进行编辑：
配置成如下图所示：
二、Kettle的配置下载Kettle1、可以从http://kettle.pentaho.org下载最新版的Kettle软件2、从官网中https://community.hitachivantara.com/s/article/data-integration-kettle下载稳定版3、国内镜像http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/ 解压到Windows某个目录下,如E:Toolsdata-integration将Hadoop伪分布式四个配置文件复制到Kettle指导目录下，如E:Toolsdata-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514，如下所示：
配置config.properties（在如E:Toolsdata-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514路径下），在文件末尾添加如下信息，表示无需授权：# add by userauthentication.superuser.provider=NO_AUTH 配置plugin.properties（在如E:Toolsdata-integrationpluginspentaho-big-data-plugin路径下），修改内容所下所示：active.hadoop.configuration=cdh514 其中cdh514对应hadoop-configurations目录下中子目录名称，即配置修改Spoon.bat，添加如下信息，让当前的window具备hadoop环境的管理员权限（我使用root用户安装hadoop），在末尾添加：REM ***************REM ** Let window User Become root for hadoop... **REM ***************set HADOOP_USER_NAME=root

至此，已经完成了Kettle配置！

三、案例演示 案例目标：创建Job实现将本地文件上传到HDFS上测试数据：https://pan.baidu.com/s/15eKQy-9fk7Jtj4WcE85vYQ 密码 4plv实现步骤：创建Job任务
在左侧菜单栏中选择“通用”下的start组件,在左侧Big Data菜单栏中选择 Hadoop Copy Files ，如下图所示：

最终Job任务如下所示：
配置Hadoop Cluster
如图所示，在作业中选择Hadoop Cluster，点击鼠标右键，选择New Cluster

点击New Cluster 会弹窗，在弹窗中根据你自己的情况填写如下信息

点击测试按钮，确认相关信息是否正常
配置Hadoop copy files 组件
运行验证结果

在HDFS上查看是否已经有文件上传到/datas目录下：

至此，已经完成了kettle与hadoop2.7.3的集成与测试工作，大家可以愉快地玩耍了~~~~~~~~~~~~~~~~~~