大数据开发工程师笔试题

1，下面哪个程序负责 HDFS 数据存储？
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker

2，下列哪个程序通常与NameNode 在一个节点启动？
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

3，下列哪项通常是集群的最主要瓶颈
a)CPU
b)网络
c)磁盘 IO
d)内存

4，HBase 依靠什么存储底层数据
a) HDFS
b) Hadoop
c) Memory
d) MapReduce

5，LSM 含义是？
a) 日志结构合并树
b) 二叉树
c) 平衡二叉树
d) 长平衡二叉树

6，关于 HBase 二级索引的描述，哪些是正确的？
a) 核心是倒排表
b) 二级索引概念是对应 Rowkey 这个“一级”索引
c) 二级索引使用平衡二叉树
d) 二级索引使用 LSM 结构

7，解压.tar.gz 结尾的 HBase 压缩包使用的 Linux 命令是？

a) tar-zxvf
b) tar -zx
c) tar -s
d) tar –nf

8，请简述一下HDFS的体系结构。

9，如何使用MapReduce实现两个表join，可以考虑一下几种情况：（1）一个表大，一个表小（可放到内存中）；（2）两个表都是ykdyz？

10，insert into 和 override write区别？

11，flume不采集Nginx日志，通过Logger4j采集日志，优缺点是什么？

12，请简述一下Spark应用转换流程

13，Redis,传统数据库,hbase,hive 每个之间的区别是什么？

14，用mapreduce来实现下面需求？
现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

15，现有一个log文件，其中每一行格式如下(存在‘=’后面为空的情况，如第二行，需要转换成"null")
project_id=test&page_id=mobile_home&action=view&widget_id=mb_home_top_rec&content_version=1&country=pl&language=pl
project_id=test&page_id=mobile_home&action=view&widget_id=&content_version=1&country=pl&language=pl
请编写函数，读取该文本文件，并处理成RDD[Map]格式返回，函数格式如下，请编写{}中代码实现功能。

def processData(spark: SparkSession, readPath: String) = { }

16，
uid subject_id score
1001 01 90
1001 02 90
1001 03 90
1002 01 85
1002 02 85
1002 03 70
1003 01 70
1003 02 70
1003 03 85

请找出所有科目成绩都大于某一学科平均成绩的学生，编写SQL完成要求。

17，使用Java语言实现二分查找