centos7安装,centos7安装nginx

1.首先，在虚拟机下搭建集群，三个虚拟机命名分别为node-1,node-2,node-3,要配置免密登录，还要关闭防火墙。

2.然后，开始配置hadoop环境，下载hadoop-2.9.1安装，配置环境变量（系统的/etc/profile文件下）

先要安装jdk（我之前装的是jdk11，后来发现和hadoop不兼容，又换成了jdk1.8）

再去hadoop安装的目录下（我的是这个/usr/local/src/hadoop-2.9.1/etc/hadoop）配置几个文件

1）hadoop-env.sh

2)core-site.xml

这里要注意/hadoopdata后面不要加上/tmp，我之前加了然后后面格式化的时候出错，另外hadoopdata是要在/usr/local/src/下手动建立的。

3)hdfs-site.xml

4)mapred-site.xml

5)yarn-site.xml

6)slaves(需要拷贝新建)

配置完成之后可以通过hadoop version和hadoop以及jps查看是否成功。

3.最后安装spark-2.3.2-烂漫的香水-without-hadoop.tgz，配置python和spark的环境变量。

然后运行pyspark出错，就安装了slf4j-1.7.25.zip并把其中的slf4j-api移动到/usr/local/src/spark/jars中

还要去/usr/local/src/spark/conf下的spark-env.sh文件中添加一句话：

至此，一台机器上的hadoop和spark环境搭好了。但还要在另外两台机器上配置，这个可以使用

从node-1上将hadoop,spark,jdk以及新建的hadoopdata文件都拷贝到node-2和node-3上，并且将环境变量/etc/profile也拷贝过去，并source一下。这样整个集群就搭建好了。

4.最后就是启动了，先进入/usr/local/src/hadoop-2.9.1下的烂漫的香水中，执行hadoop namenode-format格式化。

用sh start-all.sh启动，用sh stop-all.sh关闭集群。

5 .最后运行示例如下：

这里报错是因为找不到文件路径，将其改为如下图的路径即可。