顺丰管理架构体系,服务器按体系架构分类

Spack 架构体系

1.1 standalone client模式

1.2 standalone cluster模式

1.3 Spark On YARN cluster模式

1.4 Spark执行流程简介

Job：RDD每一个行动操作都会生成一个或者多个调度阶段调度阶段（Stage）：每个Job都会根据依赖关系，以Shuffle过程作为划分，分为Shuffle Map Stage和Result Stage。每个Stage对应一个TaskSet，一个Task中包含多Task，TaskSet的数量与该阶段最后一个RDD的分区数相同。
　
Task：分发到Executor上的工作任务，是Spark的最小执行单元

DAGScheduler：DAGScheduler是将DAG根据宽依赖将切分Stage，负责划分调度阶段并Stage转成TaskSet提交给TaskScheduler

TaskScheduler：TaskScheduler是将Task调度到Worker下的Exexcutor进程，然后丢入到Executor的线程池的中进行执行