首页 > 编程知识 正文

大数据测试面试题(大数据面试题)

时间:2023-05-05 22:35:51 阅读:88452 作者:362

面试中遇到了很多奇怪的问题,其中做了技术上的大致总结。 希望每个合伙人都能通过面试,找到合适的工作。

总结:大数据面试中经常遇到的问题

1、你知道zookeeper吗? 介绍其选举机制和集群的构建。

a :那当然很清楚。 ZooKeeper是开源分布式协作服务,是Google Chubby的开源实现。 分布式APP可以基于ZooKeeper实现数据发布/订阅、负载平衡、命名服务、分布式协调/通知、集群管理、主选举、分布式锁定、分布式队列等功能。

我们公司使用的flume集群、Kafka集群等,都离不开ZooKeeper呢。 在每个节点上构建ZooKeeper服务。 首先,在每台pc上设置zookeeper环境变量,从cd中在zookeeper下的conf文件夹下将datadir路径添加到zoo_simjle.cfg文件中,在zookeeper下创建新的data文件夹,然后在myid 启动zkserver.sh start就可以了。

2、请说你对雅安的了解:

A(Yarn是Hadoop 2.0版引入的资源管理系统,是从MR1直接进化而来的。

核心思想:分为MR1中作业跟踪器的资源管理和作业调度两个功能,分别实现资源管理器和应用程序主进程。

资源管理器:负责集群整体的资源管理和调度; 应用主机:负责任务调度、任务监控、容错等APP相关事务。

由于YARN的出现,多个计算框架现在可以在同一集群内运行。 1 .每个APP对应一个应用主机。 2 .目前支持MapReduce、storm、Spark、Flink等多个计算框架,可以在YARN上运行。

有3、1G大小的文件。 每行都是一个单词,单词大小不超过16字节,内存限制大小为1M,要求返回度数最高的100个单词。

(步骤1 )依次读取文件,对每个单词x取散列(x ) x ) P00,根据其值保存到5000个小文件(记为f0,f1,f4999 )中。 这样,各文件大致为200k左右。 如果其中有1M以上大小的文件,可以用同样的方法继续向下分割

Step2)对每个小文件,统计每个文件出现的单词和与其对应的频率(可以使用trie树/hash_map等),取出出现频率最大的100个单词),将100个单词和与其对应的频率保存到文件中,从而完成

Step3)合并这5000个文件(类似和合并排序);

4、如何配置spark master的HA呢?

a )1)配置zookeeper

2 )修改spark_env.sh文件。 未指定spark的主参数。 在每个master节点上添加以下代码

出口分区_域名_ Java _选项=-DS分区.部署.恢复模式=Zookeeper -

ds park.deploy.zookeeper.URL=ZK 01:2181,zk02:2181,ZK 0333 3602181-ds park.deploy.zookeeper.dir=/sparark

3 )将spark_env.sh分发给各节点

4 )找到主节点,运行./start-all.sh。 在此启动主master,其他主准备节点启动master命令:/sbin/start-master.sh

5 )提交程序时指定主机时,指定3台主机。 例如

./spark-shell主spark ://主0133607077,主023 33607077,主0333 3607077

5、一个datanode宕机,如何恢复一个进程

a ) Datanode宕机后,如果是暂时宕机,可以编写脚本进行监视并启动。 如果长时间宕机,datanode上的数据应该已经备份到其他机器上了。 那个datanode是新的datanode。 删除他的所有数据文件和状态文件,然后重新启动。

很多公司的重点不同,大家可以酌情参考,但其实面试成功的关键之一是,首先要把重要的大数据技术学到精髓,不要变化。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。