大数据工程师面试题及答案(数据算法工程师面试)

1 .通常集群最重要的瓶颈是哪个？答： c盘

a )处理器

b )网络

c )磁盘IO

d )内存

2.Hadoop支持数据的随机读写。 (错了)

分析： lucene支持随机读取和写入，而hdfs只支持随机读取。但是，HBase可以修复。为了解决Hadoop无法处理的问题，HBase提供随机读写。 HBase从基本设计开始，侧重于各种可扩展性问题。表可以有非常“贵”、几十亿的数据行。也可以是有数百万列的“宽”。被水平分割，在数千个普通商用机器节点上自动复制。的模式是物理存储的直接反映，系统可以提高有效的数据结构的序列化、存储和检索。

3 .从属节点存储数据，所以磁盘越大越好。 (错误)

分析：如果Slave节点故障，数据恢复将成为难题

4.hadoopdfsadminreport命令检测HDFS损坏的块。 (错误)

使用此命令可以快速确定哪个节点发生故障、HDFS的容量和使用情况以及每个节点的硬盘使用情况。

5.Hive如何优化？

a .优化排序：排序依据比排序依据更有效率

b .分区：使用静态分区(statu_date='20160516 '，location='hdsdyc ' )，每个分区对应于hdfs上的一个目录

c .减少作业和任务的数量：使用表链接操作

解决groupby数据倾斜的问题：如果设置hive.groupby.skewindata=true，则hive将自动进行负载平衡

e .将小文件合并为大文件：表连接操作

f .使用UDF或UDAF函数：

6.spark集群运算的模式

Spark有各种各样的模式。最简单的是独立本地模式，也有独立伪分布式模式。复杂的东西在集群中运行，现在在Yarn和Mesos中运行得很好。当然，Spark也有附带的单机模式。大多数情况下，标准模式就足够了。如果企业已经有Yarn或Mesos环境，则很有用

standalone (集群模式)是典型的Mater/slave模式，但也可以看到Master存在单点故障。 Spark支持ZooKeeper以实现高可用性。

on yarn (集群模式)在yarn资源管理器框架上运行，yarn负责资源管理，Spark负责任务的调度和计算。

on mesos (集群模式)在mesos资源管理器框架上运行，mesos负责资源管理，Spark负责任务的调度和计算。

on cloud (集群模式)例如AWS的EC2，使用该模式可以轻松访问Amazon的S3的Spark支持HDFS和S3这多个分布式存储系统。

列举几个hadoop生态圈的组件，简单说明一下？

Zookeeper:是一种开源分布式APP协调服务，可以基于zookeeper实现同步服务、配置维护和命名服务。

Flume:是一种高可用性、可靠、分布式、大容量的日志收集、聚合和传输系统。

Hbase:是一个分布式的面向列的开源数据库，使用Hadoop HDFS作为存储系统。

Hive:是基于Hadoop的数据仓库工具，它提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务并执行的简单sql查询功能。

Sqoop:将关系数据库中的数据导入到Hadoop的HDFS中，或将HDFS中的数据导入到关系数据库中。

8.hadoop节点下线怎么办？

/conf/hdfs-site.xml文件的更改

确定需要脱机的计算机。 dfs.osts.exclude文件包含需要下行机架的计算机。这是阻止下行机架的机器连接到NameNode

配置完成后进行配置更新操作. /悲伤的煎饼/hadoop dfsadmin -refreshNodes，该操作的作用是在后台移动块

执行3的命令后，需要更换的机器可以关闭，可以看到当前连接到集群的节点。运行Decommission时，在de commission status 3360 decommissioninprogress运行完成后，将显示“de commission status”(de信用状态)

计算机脱机完成后，从excludes文件中删除。