flink和hadoop关系,大数据spark是什么

整理并继续更新的回答：

(1)spark运行流程、源码架构

3359 blog.csdn.net/sgh uu/article/details/103547937

(2)Hbase主键设计、hbase为何这么快？

主键设计：

1 .生成随机数、散列和散列值

2 .字符串反转

3 .字符串连接

hbase为什么快： https://blog.csdn.net/sgh uu/article/details/102955969

(3)Hbase读写流程，数据compact流程

hbase读/写过程：

3359 blog.csdn.net/sgh uu/article/details/102708098

数据复制过程；

3359 blog.csdn.net/sgh uu/article/details/102956773

(4)Hadoop mapreduce流程

3359 blog.csdn.net/sgh uu/article/details/98985583

(5)Spark standalone模型、yarn架构模型(画出来架构图)

3359 blog.csdn.net/sgh uu/article/details/103547937

(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理

(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配

spark的stage划分被广泛的依赖关系划分，至少有一个ResultStage，并且在每次从后向前遇到广泛的依赖关系时划分ShuffleMapStage。

在task的情况下，stage的子集通过并行度(分区数)来测量，分区数为多少则task为多少

spark的任务调度分为stage级别的调度和Task级别的调度

详细说明分割过程和任务时间表。

(8)Sparksql自定义函数、怎么创建dateframe

(9)Sparkstreaming项目多久一个批次数据

(10)Kafka复制机制、分区多副本机制

3359 blog.csdn.net/try ll/article/details/86627696

(11)Hdfs读写流程，数据checkpoint流程

导线流：

3359 blog.csdn.net/sgh uu/article/details/98127600

数据写入过程：

3359 blog.csdn.net/sgh uu/article/details/98122393

检查点进程：

3359 blog.csdn.net/sgh uu/article/details/98196539

(12)Sparkshuffle和hadoopshuffle原理、对比

(13)Hivesql怎么转化为MapReduce任务

(14)Spark调优

spark的四个方面的调谐

(15)Spark数据倾斜解决方案

spark数据倾斜的六种解决方案

3359 blog.csdn.net/sgh uu/article/details/103710145

(16)Yarn工作流程、组成架构

3359 blog.csdn.net/sgh uu/article/details/102959135

(17 ) Zookeeper阅读器选型、节点类型、Zookeeper实现原理

) 18 ) hbase的ha、zookeeper的作用

) 19 ) spark内存管理机制，spark1.6前后对比分析

(21 ) spark rdd、数据帧、数据集的区分

) 22 ) spark有哪些参数有什么用

(23 )散列分区和范围分区的实现

) 24 ) spark有哪些类型的连接

) 25 ) SparkJDBC(MySQL )读取并发优化

) 26 ) Spark join操作符可以替换为什么

) 27 )用HBase region分隔的数据如何划分

(28 )项目集群配置(spark和hadoop集群) )。

) 29 ) spark streaming是如何与kafka交互的，具体代码是怎么编写的，程序运行过程是怎么样的，如何避免在此过程中丢失数据(直接连接)

6530 ) kafka如何保证高吞吐量、kafka的零拷贝，具体怎么办

6531 ) hdfs容错

6532 ) zookeeper如何保证原子性，如何实现分散锁定

6533 ) kafka存储模型和网络模型

6534 ) Zookeeper脑裂问题

斯卡拉

(1)隐式转换

) )柯理化