阿里hadoop面试题,hadoop运维面试题

不分类系列30题

1.HDFS写入过程

2.HDFS读取流程

3 .硬盘架构

datanode停机后的恢复过程

5.hadoop的namenode瘫痪后怎么解决

6 .使用6.namenode管理元数据

7 .检查元数据点

8 .雅虎资源调度流程

9 .组合器和分区在9.hadoop中的作用

10.MapReduce如何处理数据倾斜问题？

11 .在shuffle阶段，你是怎么理解的

12.Mapreduce的map数和reduce数由什么决定，如何配置

13.MapReduce优化经验

14 .用com biner和不用com biner分别举例？

15.MR运行流程分析

16 .简要介绍HDFS的系统体系结构，如何保证数据安全？

17 .通过客户端向HDFS写入数据时，如果某台机器故障，该怎么办

18.Hadoop优化有哪些方面？

19 .根据大量数据求出topN (导出mapreduce的实现构想() ) ) ) ) ) ) 0

20 .列出正常运行的hadoop群集中的每个hadoop都将启动哪些进程，发挥什么作用

21.Hadoop总作业和任务有什么区别？

22.Hadoop高可用性HA模式

23 .简要说明安装和配置hadoop集群的步骤

24.fsimage和edit的区别

25.yarn的三种调度策略

26.hadoop的shell命令使用得多吗？说几个常用的东西

27 .用mr实现用户pv的top10？

28 .一份文件只有一行，但这一行有100克大小。 mr不分割吗？怎样才能解决呢

29.HDFS HA机制