大数据面试题及答案-汇总版,关于大数据面试的问题

Hadoop生态一、HDFS HDFS的读写流程？HDFS中，NameNode与DataNode的作用？SecondaryNameNode的作用以及与NameNode的区别和联系?什么是集群安全模式？什么情况下会进入安全模式？以及安全模式的解决方法？为什么HDFS不适合小文件？HDFS支持的存储格式和压缩算法都有哪些？说说HDFS的可靠性策略HDFS的优缺点都有哪些？二、MapReduce MapReduce的执行流程（Yarn模式）？MapReduce的关键类有哪些？maper方法有哪些？setup方法是干嘛的？它是每读取一行数据就调用一次这个方法吗？Shuffle过程原理（详细）combine函数的作用是什么？MapReduce在每个阶段的调优方法都有哪些？Hadoop的进程都有哪些？分别都有什么作用？Yran的Job提交流程？MapReduce中可干预组件有哪些？以及各组件的原理？分区与分块的区别？resourceManager的工作职责是什么？NodeManager的工作职责是什么？简述Hadoop的调度器（FIFO、Capacity Scheduler、Fair Scheduler）三、Hive 描述一下Hive动态分区和分桶的使用场景和使用方法？Hive是怎么集成Hbase的？Hive查询的时候on和where的区别是什么？为什么？说一下Hive的内部表、外部表以及分区表都有什么特点以及它们的使用场景Hive调优的方式有哪些？Hive数据倾斜的原因以及处理办法Hive自定义函数实现了什么接口、什么方法？如何控制Hive中Mapper和Reduce的个数？Hive有哪些保存元数据的方式，每个有什么特点四、HBase 说说HBase的特点都有哪些？Rowkey怎么设计，有什么好处？Hbase的优化方式有哪些？Hbase的读写流程说说数据Flush的过程RowKey如何设计可以避免热点问题Hbase的最小存储单元是什么Hbase如何进行预分区以及作用？Hbase中的HFile什么时候要合并成大文件，什么时候要拆分成小文件为什么Hbase查询比较块？ Spark技术栈一、Scala 说一说Scala的偏函数和柯里化Scala的apply和unapply方法是什么作用？Java和Scala的区别Scala的优点有哪些？Scala的数据类型有哪些？Scala中什么是闭包？Trait和abstract class的区别是什么？二.Spark Core Spark有几种部署模式？都有什么特点？driver的功能是什么？Hadoop和Spark都是并行计算，说说它们的不同点和它们的相同点聊一聊Spark中RDD的概念，它有哪些特性简述宽依赖和窄依赖的概念，groupByKey、reduceByKey、map、filter、union五种中哪些会导致宽依赖，哪些会导致窄依赖？Spark如何防止内存溢出stage、tast以及job之间的关系以及划分方式Spark中的reduceByKey和groupByKey的区别与用法map与mapPartitions的区别foreach和foreachPartition的区别coalesce与reparttion的区别说说Spark血统的概念说说Spark RDD的持久化机制说说Spark提交任务的完整流程Spark Join的优化方式有哪些？Spark的shuffle有几种方式哪些算子涉及到shuffle简述一下MapReduce的shuffle与Spark的shuffle的过程Spark广播变量的作用数据倾斜的解决方案Spark的通信机制三、Spark SQL Dataset创建的几种方式？Dataframe相对rdd有哪些不同SparkSQL如何处理结构化数据和非结构化数据Spark SQL的原理Spark SQL中缓存方式有哪几种？registerTempTable是action类型的，为什么不发生缓存？四、SparkStreaming SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么？简述SparkStreaming窗口函数的原理简述SparkStreaming的容错原理核心组件一、Flume Flume的组成与事务介绍一下Memory Channel说说File Channel说说Kafka Channel介绍一下Flume几种Sink说说Flume拦截器的使用什么是选择器如何实现Flume数据传输的监控二、Kafka Kafka和传统消息队列有何区别Kafka的应用场景Kafka在高并发的情况下，如何避免消息的丢失和消息重复？Kafka到SparkStreaming怎么保证数据的完整性，怎么保证数据不重复消费？Kafka的消费者高阶和低阶API有什么区别？Kafka是如何保证数据一致性和可靠性Spark实时作业宕机，kafka指定的topic数据堆积怎么办？说一下Kafka的acksKafka的读写流程？Kafka为什么只让leader进行读写？为了避免磁盘被占满，Kafka会周期性的删除旧消息，那么删除策略有哪些？控制力度到什么程度，具体描述一下简要描述Kafka数据高可用的原理是什么？Kafka的偏移量offset存放在哪里，为什么？如何保证Kafka的消息有序？说说Kafka的分区分配策略Kafka消息数据积压，消费能力不足怎么处理？如何实现Kafka的高吞吐