首页 > 编程知识 正文

大数据面试算法题(大数据etl面试题及答案)

时间:2023-05-04 19:59:53 阅读:99323 作者:2832

你可以在阅读前看一看。

金九银十100大数据面试题

你什么都学会了吗?

00-1010侧(30分钟)

谈谈你对HDFS的理解。

Hadoop2.0有哪些变化

火花和磁共振有什么区别

除了Spark,你还知道大数据处理框架吗?

火花洗牌,告诉我。

StringBuilder和StringBuffer的区别

哈希表和哈希表的区别

二叉树的数据结构是什么?

数据库索引的实现原理

Jvm垃圾收集器,选择一个。

两份面条(50分钟)

说说你的日志流量分析系统项目。

小文件合并,为什么需要合并小文件?

谈论名称节点和数据节点

如果我想在数据仍在运行时检查数据,该怎么办?

存储格式的选择行存储和列存储的优缺点

为什么用ORC代替拼花?

如果我选择*

如果要查时间区域,怎么优化?

谈谈数据倾斜,怎么调。

说说你对Hive的理解。

Hive是怎么变成MR的

OOM,我该怎么办?

在洗牌过程中,数据将被写入哪个缓冲区?

谈谈执行者、核心和任务的关系。

你通常如何学习火花?

除了大数据,还能遇到Spring吗?

告诉我你还知道哪些技能。

选择了什么版本的Spark和Scala?

为什么Spark选择1.6.1而不是2.x?

迷你图2有哪些变化。x制造?你知道在哪里可以看到这些吗?

火花提交罐

你把这个罐子包放在哪里了?

副本放置策略

1.*云

简历上的3项依次介绍。

无,期权,斯卡拉收益率

写HDFS的流程

MapReduce和Spark的区别

MapReduce的适用场景

中常用的10个linux命令

你做过与机器学习相关的工作吗?

数据倾斜调整

OOM出现后怎么调?

你会写剧本吗?

00-1010数组和链表的区别

二叉树

Jvm内存模型

编写代码:复制2个数组

面试官介绍公司的业务。

00-1010现场笔试

选择题编程题SQL题

选择题主要是一些大数据的基础。

SQL问题检查窗口函数。

一边(25分钟)

MapReduce混洗和Spark混洗的区别

其实问问:排序洗牌和哈希洗牌的区别。

因为MR洗牌有更多的排序阶段和合并阶段。

以另一种形式询问Spark的洗牌。

日志报警项目

A.为什么需要加卡夫卡?水槽也可以直接连接火花流。为什么需要加卡夫卡?

B.为什么要将数据从String格式改为Json格式?字符串格式的读取也可以转换为DF,然后注册为临时表。

c.String是如何转换成Json的?

什么是迭代计算?

00-1010侧(45分钟)

说说你的项目。

我对统一数据管理平台感兴趣。说说吧。

我大概知道发生了什么。你参与了java网站的开发吗?

你刚才提到了项目中的元数据。能不能谈谈hive的元数据管理,了解一下?

蜂巢,你对蜂巢了解多少?

然后我谈到了蜂巢先生的过程

你提到了谓词下推,举一个sql的例子,谈谈谓词下推。

你知道AST和操作树是什么样子的吗?

你是如何理解蜂房给先生的过程的?

现在,有一个问题。如果一个用户:做了全表扫描来检查数据,即使我们要求指定一个分区来检查,他也没有做;那么,从你刚刚从蜂巢到先生的阶段,你认为你应该开始避免哪个阶段?

面试官:我来整理一下你刚才提到的流程:hiveql-ast-qqq B-操作员树。你认为这三个阶段中哪一个更好避免?

除了谓词下推,能说说其他优化吗?不要谈论数据倾斜调整。

你刚才提到了可分压缩格式。哪些压缩格式支持分段?

了解jvm?说说垃圾收集算法。

java和scala中哪个更常见?

如果我现在要用地图收藏,你觉得哪个适合多线程访问?

如何删除线程监控

Spark出现OOM,你觉得应该怎么调?不要移动jvm的参数

如果大表加入小表时出现问题,你认为应该如何优化?

如果简单数据量太大,现在出现OOM怎么办?

现在,如果我增加洗牌过程中的并行度,我能缓解数据倾斜吗?

你对未来有什么计划?(五年内)

我向面试官询问了部门的大数据业务以及对我未来发展的建议。

两份面条(40分钟)

如何实现ThriftServer的HA,能告诉我实现的思路吗?

你能告诉我动物园管理员的值班机制是如何实现的吗?

场景:现在有一个客户端和两个服务器。当我动态加入一台机器,或者删除一台机器,或者一台机器停机了,客户端应该如何感知并谈论实现思路(没有Zookeeper)?

00-1010简历项目介绍、要点

RDD

介绍 爬虫、分类算法介绍 JVM介绍

7.汽*之家(大数据部–基础平台组)

实习时间,能实习多久 MapReduce的执行流程 map最多可以有几个,combiner阶段,举2个不能使用combiner的例子 hql转MapReduce的流程说下 Spark Shuffle调优,调哪几个参数 Spark Shuffle有哪几个类 hashshuffle的consolidate机制被移除取代了,为什么?你觉得它有什么缺陷 计算机网络,三次握手,为什么需要三次 在这个过程中,可以携带数据嘛 Synchronized与volatile的区别 二分查找算法的时间复杂度、空间复杂度 说下你的能耗资源统计分析系统项目 你们最终的数据是存哪的? 为什么使用es,而不是使用关系型数据库(MySQL) 重跑的设计,是指定批次重跑嘛,怎么设计的 ResourceManager HA的设计,如何设计? 平台的权限怎么做的? 面试官最后主动介绍了下部门,对我的建议是java基础不行,没做过相关的项目,真实工作中不可能就管一块

8.蚂*金服(保险事业群)

项目中的亮点,说说 小文件合并、整条链路的重跑 设计 技术选型:MapReduce VS Spark 日志格式是怎么样的 项目开发的团队有多少人,规模多大 关于Flume 与 Spark是怎么学习的 xxx专业是你的高考第一志愿吗 除了日志流量分析项目,还有哪些项目 说了Hive的项目,被面试官指太简单 有没有做个Web相关的 有没有关注名人的博客 对大数据领域的看法 有没有其它的兴趣爱好

9.猫*

一面

自我介绍 Hive窗口函数你用过哪些?哪些场景下使用的,有什么功能? left join、right join、join的区别 rdd的特性 spark怎么划分stage 哪些操作出发job (trasformation action) spark参数调优 spark数据倾斜调优?如何进行调优? 数据倾斜不用spark处理,可以用hive处理吗?hive中也有一个设置参数加随机数你知道吗? 说下用过哪些linux命令 spark wordcount代码口述 java 常用集合:hashtable、hashmap、concurrenthashmap spring ioc aop 实现原理 flume主要用来做什么 mysql索引原理 spring bean的生命周期 jvm了解吗 简单说下jvm原理 GC机制 spring DI 机制 kafka 消费者写过吗 offset偏移量怎么维护? yarn 集群两种模式知道吗?有什么区别? mr运行流程 mr中的shuffle阶段的优化 现在有两张表 user (用户id):所有用户 订单表(用户id 订单id 时间) :今天的所有订单 需要知道今天没有买到票的用户 两种方式 1.not in 效率不行 2.left join 查询订单表同一天购买两个订单的用户 count求和 having count(*)=2(having后面可以加聚合函数) 每个用户买过的第二条订单 rdd里面是什么样的结构 数据结构与算法相关:快排、二叉树遍历 递归与非递归、检查一个链表是否有环 知道几种方法?

二面

自我介绍 项目相关 spark中的数据倾斜 spark提交一个程序怎么划分 spark数据倾斜你是怎么处理的 数据解析你使用的什么(spark sql ) 离线项目相关:离线数据处理 spark sql最终生成多少个文件 最终生成的文件是否存在小文件的问题 自己搭建过集群环境吗 hive sql 写的多吗,是写sql 多还是代码多,mr写过吗 kafka topic会有多个partition?为什么要建立partition? hive的优化 hive两个表join一个大表一个小表 小表满足多大要求才会放入内存 mapjion原理 mapjoin从那个版本开始? 用过spring吗?spring dao层有什么用?用的hibernate还是mybatis? spring 数据库连接池有哪些类型?用的哪一个? spring配置多个库支持吗? linux命令:查看机器负载情况?查看进程占用的端口?看内存?看磁盘? 我有三个线程 要求都达到一种状态之后在继续执行 问我能去他们那边面试吗?或者线下宣讲会

10.海**视

一面(电话25分钟)

数据倾斜的解决,怎么知道哪里倾斜 自定义类的广播 cache机制,rdd和df的cache什么区别 spark动态内存,堆内和堆外 rdd算子,map,mappartitions,foreach,union 宽依赖,窄依赖 spark DAG过程,doOnrecive,eventloop执行过程 stage和task怎么分类 spark调优 概念,executor,worker,job 用没用过spark什么log,没记住 讲讲sparkSQL数据清洗过程

二面(现场30分钟)

问了很多项目相关的 RDD有什么特点?如果RDD链路很长如何避免重新计算 kafka offset了解吗 项目中如何较少网络传输 如何保证存储和索引的一致性 项目中解决过的比较复杂的问题

11.vi**

自我介绍 问项目相关 tcp udp http 和 https 线程 进程 死锁 多线程 锁 分布式锁 HashMap底层 HDFS、MapReduce工作流程 awk和sed命令

12.知*

合并2个有序链表 java三大特性的理解,如何去应用 设计模式 jvm内存分配、垃圾回收算法 java集合框架 Spark shuffle和MapReduce shuffle的区别 Scala的柯里化和隐式转换 函数式编程

13.猪八*

MapReduce的工作流程 RDD的五大特性 项目相关

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。