spark shark,spark 状态计算

SPARK_MASTER_IP
指定master进程所在的机器的ip地址

SPARK_MASTER_PORT
指定master监听的端口号（默认是7077）

SPARK_MASTER_WEBUI_PORT
指定master web ui的端口号（默认是8080）

SPARK_MASTER_OPTS
设置master的额外参数，使用"-Dx=y"设置各个参数。
例：export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"

参数名默认值含义spark.deploy.retainedApplications200在spark web ui上最多显示多少个application的信息spark.deploy.retainedDrivers200在spark web ui上最多显示多少个driver的信息spark.deploy.spreadOuttrue资源调度策略，spreadOut会尽量将application的executor进程分布在更多worker上，适合基于hdfs文件计算的情况，提升数据本地化概率；非spreadOut会尽量将executor分配到一个worker上，适合计算密集型的作业spark.deploy.defaultCores无限大每个spark作业最多在standalone集群中使用多少个cpu core，默认是无限大，有多少用多少spark.deploy.timeout60单位秒，一个worker多少时间没有响应之后，master认为worker挂掉了

SPARK_LOCAL_DIRS
spark的工作目录，包括了shuffle map输出文件，以及持久化到磁盘的RDD等

SPARK_WORKER_PORT
worker节点的端口号，默认是随机的

SPARK_WORKER_WEBUI_PORT
worker节点的web ui端口号，默认是8081

SPARK_WORKER_CORES
worker节点上，允许spark作业使用的最大cpu数量，默认是机器上所有的cpu core

SPARK_WORKER_MEMORY
worker节点上，允许spark作业使用的最大内存量，格式为1000m，2g等，默认最小是1g内存

SPARK_WORKER_INSTANCES
当前机器上的worker进程数量，默认是1，可以设置成多个，但是这时一定要设置SPARK_WORKER_CORES，限制每个worker的cpu数量

SPARK_WORKER_DIR
spark作业的工作目录，包括了作业的日志等，默认是spark_home/work

SPARK_WORKER_OPTS
worker的额外参数，使用"-Dx=y"设置各个参数

参数名默认值含义spark.worker.cleanup.enabledfalse是否启动自动清理worker工作目录，默认是falsespark.worker.cleanup.interval1800单位秒，自动清理的时间间隔，默认是30分钟spark.worker.cleanup.appDataTtl7 * 24 * 3600默认将一个spark作业的文件在worker工作目录保留多少时间，默认是7天

SPARK_DAEMON_MEMORY
分配给master和worker进程自己本身的内存，默认是1g

SPARK_DAEMON_JAVA_OPTS
设置master和worker自己的jvm参数，使用"-Dx=y"设置各个参数

SPARK_PUBLISC_DNS
master和worker的公共dns域名，默认是没有的

spark所有的启动和关闭shell脚本

sbin/start-all.sh 根据配置，在集群中各个节点上，启动一个master进程和多个worker进程

sbin/stop-all.sh 在集群中停止所有master和worker进程

sbin/start-master.sh 在本地启动一个master进程

sbin/stop-master.sh 关闭master进程

sbin/start-slaves.sh 根据conf/slaves文件中配置的worker节点，启动所有的worker进程

sbin/stop-slaves.sh 关闭所有worker进程

sbin/start-slave.sh 在本地启动一个worker进程