首页 > 编程知识 正文

大数据工程师面试题及答案(数据算法工程师面试)

时间:2023-05-03 11:28:42 阅读:88327 作者:2016

1 .通常集群最重要的瓶颈是哪个? 答: c盘

a )处理器

b )网络

c )磁盘IO

d )内存

2.Hadoop支持数据的随机读写。 (错了)

分析: lucene支持随机读取和写入,而hdfs只支持随机读取。 但是,HBase可以修复。 为了解决Hadoop无法处理的问题,HBase提供随机读写。 HBase从基本设计开始,侧重于各种可扩展性问题。 表可以有非常“贵”、几十亿的数据行。 也可以是有数百万列的“宽”。被水平分割,在数千个普通商用机器节点上自动复制。 的模式是物理存储的直接反映,系统可以提高有效的数据结构的序列化、存储和检索。

3 .从属节点存储数据,所以磁盘越大越好。 (错误)

分析:如果Slave节点故障,数据恢复将成为难题

4.hadoopdfsadminreport命令检测HDFS损坏的块。 (错误)

使用此命令可以快速确定哪个节点发生故障、HDFS的容量和使用情况以及每个节点的硬盘使用情况。

5.Hive如何优化?

a .优化排序:排序依据比排序依据更有效率

b .分区:使用静态分区(statu_date='20160516 ',location='hdsdyc ' ),每个分区对应于hdfs上的一个目录

c .减少作业和任务的数量:使用表链接操作

解决groupby数据倾斜的问题:如果设置hive.groupby.skewindata=true,则hive将自动进行负载平衡

e .将小文件合并为大文件:表连接操作

f .使用UDF或UDAF函数:

6.spark集群运算的模式

Spark有各种各样的模式。 最简单的是独立本地模式,也有独立伪分布式模式。 复杂的东西在集群中运行,现在在Yarn和Mesos中运行得很好。 当然,Spark也有附带的单机模式。 大多数情况下,标准模式就足够了。 如果企业已经有Yarn或Mesos环境,则很有用

standalone (集群模式)是典型的Mater/slave模式,但也可以看到Master存在单点故障。 Spark支持ZooKeeper以实现高可用性。

on yarn (集群模式)在yarn资源管理器框架上运行,yarn负责资源管理,Spark负责任务的调度和计算。

on mesos (集群模式)在mesos资源管理器框架上运行,mesos负责资源管理,Spark负责任务的调度和计算。

on cloud (集群模式)例如AWS的EC2,使用该模式可以轻松访问Amazon的S3的Spark支持HDFS和S3这多个分布式存储系统。

列举几个hadoop生态圈的组件,简单说明一下?

Zookeeper:是一种开源分布式APP协调服务,可以基于zookeeper实现同步服务、配置维护和命名服务。

Flume:是一种高可用性、可靠、分布式、大容量的日志收集、聚合和传输系统。

Hbase:是一个分布式的面向列的开源数据库,使用Hadoop HDFS作为存储系统。

Hive:是基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务并执行的简单sql查询功能。

Sqoop:将关系数据库中的数据导入到Hadoop的HDFS中,或将HDFS中的数据导入到关系数据库中。

8.hadoop节点下线怎么办?

/conf/hdfs-site.xml文件的更改

确定需要脱机的计算机。 dfs.osts.exclude文件包含需要下行机架的计算机。 这是阻止下行机架的机器连接到NameNode

配置完成后进行配置更新操作. /悲伤的煎饼/hadoop dfsadmin -refreshNodes,该操作的作用是在后台移动块

执行3的命令后,需要更换的机器可以关闭,可以看到当前连接到集群的节点。 运行Decommission时,在de commission status 3360 decommissioninprogress运行完成后,将显示“de commission status”(de信用状态)

计算机脱机完成后,从excludes文件中删除。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。