整理并继续更新的回答:
(1)spark运行流程、源码架构
3359 blog.csdn.net/sgh uu/article/details/103547937
(2)Hbase主键设计、hbase为何这么快?
主键设计:
1 .生成随机数、散列和散列值
2 .字符串反转
3 .字符串连接
hbase为什么快: https://blog.csdn.net/sgh uu/article/details/102955969
(3)Hbase读写流程,数据compact流程
hbase读/写过程:
3359 blog.csdn.net/sgh uu/article/details/102708098
数据复制过程;
3359 blog.csdn.net/sgh uu/article/details/102956773
(4)Hadoop mapreduce流程
3359 blog.csdn.net/sgh uu/article/details/98985583
(5)Spark standalone模型、yarn架构模型(画出来架构图)
3359 blog.csdn.net/sgh uu/article/details/103547937
(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理
(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配
spark的stage划分被广泛的依赖关系划分,至少有一个ResultStage,并且在每次从后向前遇到广泛的依赖关系时划分ShuffleMapStage。
在task的情况下,stage的子集通过并行度(分区数)来测量,分区数为多少则task为多少
spark的任务调度分为stage级别的调度和Task级别的调度
详细说明分割过程和任务时间表。
(8)Sparksql自定义函数、怎么创建dateframe
(9)Sparkstreaming项目多久一个批次数据
(10)Kafka复制机制、分区多副本机制
3359 blog.csdn.net/try ll/article/details/86627696
(11)Hdfs读写流程,数据checkpoint流程
导线流:
3359 blog.csdn.net/sgh uu/article/details/98127600
数据写入过程:
3359 blog.csdn.net/sgh uu/article/details/98122393
检查点进程:
3359 blog.csdn.net/sgh uu/article/details/98196539
(12)Sparkshuffle和hadoopshuffle原理、对比
(13)Hivesql怎么转化为MapReduce任务
(14)Spark调优
spark的四个方面的调谐
(15)Spark数据倾斜解决方案
spark数据倾斜的六种解决方案
3359 blog.csdn.net/sgh uu/article/details/103710145
(16)Yarn工作流程、组成架构
3359 blog.csdn.net/sgh uu/article/details/102959135
(17 ) Zookeeper阅读器选型、节点类型、Zookeeper实现原理
) 18 ) hbase的ha、zookeeper的作用
) 19 ) spark内存管理机制,spark1.6前后对比分析
(21 ) spark rdd、数据帧、数据集的区分
) 22 ) spark有哪些参数有什么用
(23 )散列分区和范围分区的实现
) 24 ) spark有哪些类型的连接
) 25 ) SparkJDBC(MySQL )读取并发优化
) 26 ) Spark join操作符可以替换为什么
) 27 )用HBase region分隔的数据如何划分
(28 )项目集群配置(spark和hadoop集群) )。
) 29 ) spark streaming是如何与kafka交互的,具体代码是怎么编写的,程序运行过程是怎么样的,如何避免在此过程中丢失数据(直接连接)
6530 ) kafka如何保证高吞吐量、kafka的零拷贝,具体怎么办
6531 ) hdfs容错
6532 ) zookeeper如何保证原子性,如何实现分散锁定
6533 ) kafka存储模型和网络模型
6534 ) Zookeeper脑裂问题
斯卡拉
(1)隐式转换
) )柯理化