1.首先,在虚拟机下搭建集群,三个虚拟机命名分别为node-1,node-2,node-3,要配置免密登录,还要关闭防火墙。
2.然后,开始配置hadoop环境,下载hadoop-2.9.1安装,配置环境变量(系统的/etc/profile文件下)
先要安装jdk(我之前装的是jdk11,后来发现和hadoop不兼容,又换成了jdk1.8)
再去hadoop安装的目录下(我的是这个/usr/local/src/hadoop-2.9.1/etc/hadoop)配置几个文件
1)hadoop-env.sh
2)core-site.xml
这里要注意/hadoopdata后面不要加上/tmp,我之前加了然后后面格式化的时候出错,另外hadoopdata是要在/usr/local/src/下手动建立的。
3)hdfs-site.xml
4)mapred-site.xml
5)yarn-site.xml
6)slaves(需要拷贝新建)
配置完成之后可以通过hadoop version和hadoop以及jps查看是否成功。
3.最后安装spark-2.3.2-烂漫的香水-without-hadoop.tgz,配置python和spark的环境变量。
然后运行pyspark出错,就安装了slf4j-1.7.25.zip并把其中的slf4j-api移动到/usr/local/src/spark/jars中
还要去/usr/local/src/spark/conf下的spark-env.sh文件中添加一句话:
至此,一台机器上的hadoop和spark环境搭好了。但还要在另外两台机器上配置,这个可以使用
从node-1上将hadoop,spark,jdk以及新建的hadoopdata文件都拷贝到node-2和node-3上,并且将环境变量/etc/profile也 拷贝过去,并source一下。这样整个集群就搭建好了。
4.最后就是启动了,先进入/usr/local/src/hadoop-2.9.1下的烂漫的香水中,执行hadoop namenode-format格式化。
用sh start-all.sh启动,用sh stop-all.sh关闭集群。
5 .最后运行示例如下:
这里报错是因为找不到文件路径,将其改为如下图的路径即可。