首页 > 编程知识 正文

hadoop完全分布式,hadoop mapreduce

时间:2023-05-05 12:14:53 阅读:56658 作者:3136

Kettle8.2和Hadoop2.7.3集成、Hadoop伪分布式安装二、Kettle配置三、案例演示说明:

环境: Windows虚拟机操作系统: centos7Hadoop版本和模式: Hadoop2.7.3伪分布式环境Kettle版本和模式: kettle8.2独立模式1、Hadoop伪分布式安装

安装步骤请参考另一篇博文。

3359 blog.csdn.net/sujian gming/article/details/88047006? spm=1001.2014.3001.5501此处列出了主要步骤。

将hadoop-2.7.3.tar.gz上传到tools目录,然后运行以下命令进行解压缩安装

tar-zvxf Hadoop-2.7.3.tar.gz-c/training /环境变量设置:

vi ~/.bash_profile添加以下信息:

导出Hadoop _ home=/training/Hadoop-2.7.3导出路径=$ path : $ Hadoop _ home/kqdxxm 3360 $ Hadoop _ home

source ~/.bash_profile认证是否有效:

执行:只要hdfs或hadopo有相关信息即可

配置伪分布式环境:

ssh-keygen -t rsa (直接回车3次) CD (/. ssh/ssh-copy-id-iid _ RSA.pub root @ Hadoop 01 )主机名可更改为自己的主机名) Hadoop

运行以下命令打开并编辑文件: vi hadoop-env.sh在打开的文件中,更改jdk的路径以更改为虚拟机安装的路径export Java _ home=/training/JDK1.8.0_ 171。 配置如下-表示数据块冗馀默认为3,伪方差可以设置为1-- property named fs.replication/name value1/value/property! 指示是否打开HDFS权限检查。 默认值为true---- property named fs.permissions/namevaluefalse/value/property更改core-site.xml,配置如下: 构成3358ww NameNode的通信地址9000是RPC的默认通信端口property name fs.default fs/namevaluehdfs 3360//Hadoop 01:9000/value! -- bigdata表示主机名,并写入你们自己的主机名----propertypropertynamehadoop.tmp.dir/name value/training/Hadoop-2.7 .

创建mapred-site.xml,然后运行以下命令: CP/training/Hadoop-2.7.3/etc/Hadoop/mapred-site.XML.template/training/Hadoop-2.7.3/etc -注意: 必须在配置期间添加丙--property name MapReduce.framework.name/namevalueyarn/value/property -历史服务器端地址---

:10020</value></property><!-- 历史服务器 web 端地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value></property><!-- 如果在windows上提交任务需要增加mapreduce.app-submission.cross-platform配置 --><property><name>mapreduce.app-submission.cross-platform</name><value>true</value></property> 配置yarn-site.xml文件,配置如下:
注意:下面的配置信息需要在configuration节点中间添加哈<!--注意:下面的配置信息需要在<configuration></configuration>中间添加哈 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志保留时间设置7天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!--配置Log Server --><property><name>yarn.log.server.url</name><value>http://hadoop001:19888/jobhistory/logs</value></property> 格式化:HDFS(NameNode)hdfs namenode -format 查看是否格式化成功,成功的信息提示如下: common.Storage: Storage directory /training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted. 启动Hadoop(完全启动)start-all.sh 命令行验证,执行:jps 命令
看看有没有如下五个进程:NameNodeDataNodeReourceManagerNodeManagerSecondaryNameNode web界面进行验证:
HDFS分布式文件系统界面:http://bigdata:50070 #bigdata指虚拟机名称 Yarn容器运行界面:http://hadoop001:8088 #bigdata指虚拟机名称 停止Hadoop,可以执行如下命令:stop-all.sh 注意事项
1)若想在windows浏览器中通过输入主机名称+端口号的形式访问界面,则需要设置主机名与ip地址的映射关系(针对虚拟机而言)
2)如何在windows上设置虚拟机主机名称与IP地址映射关系,如下所示:进入到C:WindowsSystem32driversetc 文件夹,找到hosts文件,对它进行编辑:
配置成如下图所示:
二、Kettle的配置 下载Kettle1、可以从http://kettle.pentaho.org下载最新版的Kettle软件2、从官网中https://community.hitachivantara.com/s/article/data-integration-kettle下载稳定版3、国内镜像http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/ 解压到Windows某个目录下,如E:Toolsdata-integration将Hadoop伪分布式四个配置文件复制到Kettle指导目录下,如E:Toolsdata-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514,如下所示:
配置config.properties(在如E:Toolsdata-integrationpluginspentaho-big-data-pluginhadoop-configurationscdh514路径下),在文件末尾添加如下信息,表示无需授权:# add by userauthentication.superuser.provider=NO_AUTH 配置plugin.properties(在如E:Toolsdata-integrationpluginspentaho-big-data-plugin路径下),修改内容所下所示:active.hadoop.configuration=cdh514 其中cdh514对应hadoop-configurations目录下中子目录名称,即配置修改Spoon.bat,添加如下信息,让当前的window具备hadoop环境的管理员权限(我使用root用户安装hadoop),在末尾添加:REM ***************REM ** Let window User Become root for hadoop... **REM ***************set HADOOP_USER_NAME=root

至此,已经完成了Kettle配置!

三、案例演示 案例目标:创建Job实现将本地文件上传到HDFS上测试数据:https://pan.baidu.com/s/15eKQy-9fk7Jtj4WcE85vYQ 密码 4plv实现步骤: 创建Job任务
在左侧菜单栏中选择“通用”下的start组件,在左侧Big Data菜单栏中选择 Hadoop Copy Files ,如下图所示:


最终Job任务如下所示:
配置Hadoop Cluster
如图所示,在作业中选择Hadoop Cluster,点击鼠标右键,选择New Cluster

点击New Cluster 会弹窗,在弹窗中根据你自己的情况填写如下信息

点击测试按钮,确认相关信息是否正常
配置Hadoop copy files 组件
运行验证结果

在HDFS上查看是否已经有文件上传到/datas目录下:

至此,已经完成了kettle与hadoop2.7.3的集成与测试工作,大家可以愉快地玩耍了~~~~~~~~~~~~~~~~~~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。