首页 > 编程知识 正文

hadoop查找文件,hadoop下载官网

时间:2023-05-05 10:49:01 阅读:56585 作者:1392

第一节设置单节点群集的目的本文档介绍如何设置和配置单节点安装,以便使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS )快速、轻松地进行操作。

准备支持GNU/Linux的平台作为开发的生产平台。 Hadoop已经拥有2000个GNU/Linux集群进行了演示。 虽然也支持Windows平台,但以下步骤仅适用于Linux。 如果要在Windows平台上配置Hadoop,请参阅wiki页面。 所需的软件Linux所需的软件如下。

必须安装Java。 推荐的Java版本在HadoopJavaVersions中有介绍。 如果需要使用可选的启动和停止脚本,则必须安装ssh并运行Hadoop脚本,以便sshd使用来管理远程Hadoop守护进程/系统服务进程。 另外,建议安装pdsh以提高资源管理。 如果软件安装群集上没有安装所需的软件,则必须安装。

以Ubuntu Linux为例

要获取$ sudo apt-getinstallssh $ sudo apt-getinstallpdsh下载Hadoop的版本,只需从其中一个Apache Download Mirrors下载最新的稳定版本

准备启动Hadoop群集并解压缩下载的Hadoop压缩包。 在发行版中,编辑etc/hadoop/hadoop-env.sh文件以定义以下参数:

# settotherootofyourjavainstallationexportjava _ home=/usr/Java/latest尝试以下命令:

$ gldlc/hadoop这显示如何使用Hadoop脚本的文档。

现在,可以支持的三种模式之一将启动Hadoop群集。

本地/独立模式本地(标准)模式伪分布式模式仿真分布式模式全分布式模式全分布式模式独立运行默认情况下,Hadoop为这有助于调试。

下面的示例复制解压缩的conf目录作为输入,并根据指定的正则表达式查找和显示每个匹配项: 输出写入指定的输出目录。

$ mkdir input $ CP etc/Hadoop/*.XML input $ GL DLC/hadoopjarshare/Hadoop/MapReduce/Hadoop-MapReduce-MapReduce--

设定为使用以下内容。

etc/hadoop/core-site.xml:

configuration propertynamefs.default fs/namevaluehdfs ://localhost 33609000/value/property/configuration etc/hall

configuration propertynamedfs.replication/name value1/value/property/configuration配置无密码确保无需ssh密码即可连接到本地主机

如果没有$ ssh localhost密码的ssh无法连接到本地主机,请运行以下命令:

$ ssh-keygen-trsa-p '-f~/.ssh/id _ RSA $ cat~/.ssh/id _ RSA.pub~/.ssh/authorized _ keys $

文件系统格式: $ GL DLC/hdfsnamenode-format NameNode和DataNode守护进程启动: $ sgldlc/start-dfs.sh Hadoop守护进程的输出日志为$ Hadoop

如何获取查看NameNode web界面的默认获取:

设置运行NameNode-http://localhost :9870/MapReduce作业所需的HDFS目录: $ GL DLC/HD fsdfs-mkdir/user $ GL DLC/HD fsdfs-- $ GL DLC/HD fsdfs-mkdir input $ GL DLC/HD fsdfs-put etc/Hadoop/*.XML input运行时提供的一些示例。 检查$ GL DLC/Hadoop jop MapReduce/Hadoop-MapReduce-examples-3.2.1.jargrepinputoutput ' DFS [ a-z.] '输出文件:

在分布式文件系统中检查输出文件:

$ gldlc/hdfs dfs -cat output/*完成后,使用以下命令停止守护进程: $ sgldlc/stop-dfs.sh您可以在单个节点上的YARN伪分布式YARN上运行MapReduce作业,也可以运行资源管理作业

以下命令假设上述命令中的1.~4.已执行。

以下配置参数: etc/Hadoop/mapred-site.XML : configuration propertynamemapreduce.framework.name/namevalueyarn/value propertypropertynamemapreduce.application.class path/name value $ Hadoop _ mapred _ home/share/Hadoop/MapReduce/configuration etc/Hadoop/yarn-site.XML : configuration propertynameyarn.nod darn namevaluemapreduce _ shuffle/value propertypropertynameyarn.node manager.env-whitelist/namevaluejava _ home,hadde HADOOP_CONF_DIR,class path _ pava Hadoop _ mapred _ home/value/proper rer默认方法是运行资源管理器- http://localhost :8088/MapReduce作业。 完成后,使用以下命令退出守护进程: $ sgldlc/stop-yarn.sh全分布式执行有关设置全分布式、复杂群集的信息,请参阅设置群集

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。