你可以在阅读前看一看。

金九银十100大数据面试题

你什么都学会了吗？

00-1010侧(30分钟)

谈谈你对HDFS的理解。

Hadoop2.0有哪些变化

火花和磁共振有什么区别

除了Spark，你还知道大数据处理框架吗？

火花洗牌，告诉我。

StringBuilder和StringBuffer的区别

哈希表和哈希表的区别

二叉树的数据结构是什么？

数据库索引的实现原理

Jvm垃圾收集器，选择一个。

两份面条(50分钟)

说说你的日志流量分析系统项目。

小文件合并，为什么需要合并小文件？

谈论名称节点和数据节点

如果我想在数据仍在运行时检查数据，该怎么办？

存储格式的选择行存储和列存储的优缺点

为什么用ORC代替拼花？

如果我选择*

如果要查时间区域，怎么优化？

谈谈数据倾斜，怎么调。

说说你对Hive的理解。

Hive是怎么变成MR的

OOM，我该怎么办？

在洗牌过程中，数据将被写入哪个缓冲区？

谈谈执行者、核心和任务的关系。

你通常如何学习火花？

除了大数据，还能遇到Spring吗？

告诉我你还知道哪些技能。

选择了什么版本的Spark和Scala？

为什么Spark选择1.6.1而不是2.x？

迷你图2有哪些变化。x制造？你知道在哪里可以看到这些吗？

火花提交罐

你把这个罐子包放在哪里了？

副本放置策略

1.*云

简历上的3项依次介绍。

无，期权，斯卡拉收益率

写HDFS的流程

MapReduce和Spark的区别

MapReduce的适用场景

中常用的10个linux命令

你做过与机器学习相关的工作吗？

数据倾斜调整

OOM出现后怎么调？

你会写剧本吗？

00-1010数组和链表的区别

二叉树

Jvm内存模型

编写代码：复制2个数组

面试官介绍公司的业务。

00-1010现场笔试

选择题编程题SQL题

选择题主要是一些大数据的基础。

SQL问题检查窗口函数。

一边(25分钟)

MapReduce混洗和Spark混洗的区别

其实问问：排序洗牌和哈希洗牌的区别。

因为MR洗牌有更多的排序阶段和合并阶段。

以另一种形式询问Spark的洗牌。

日志报警项目

A.为什么需要加卡夫卡？水槽也可以直接连接火花流。为什么需要加卡夫卡？

B.为什么要将数据从String格式改为Json格式？字符串格式的读取也可以转换为DF，然后注册为临时表。

c.String是如何转换成Json的？

什么是迭代计算？

00-1010侧(45分钟)

说说你的项目。

我对统一数据管理平台感兴趣。说说吧。

我大概知道发生了什么。你参与了java网站的开发吗？

你刚才提到了项目中的元数据。能不能谈谈hive的元数据管理，了解一下？

蜂巢，你对蜂巢了解多少？

然后我谈到了蜂巢先生的过程

你提到了谓词下推，举一个sql的例子，谈谈谓词下推。

你知道AST和操作树是什么样子的吗？

你是如何理解蜂房给先生的过程的？

现在，有一个问题。如果一个用户：做了全表扫描来检查数据，即使我们要求指定一个分区来检查，他也没有做；那么，从你刚刚从蜂巢到先生的阶段，你认为你应该开始避免哪个阶段？

面试官：我来整理一下你刚才提到的流程：hiveql-ast-qqq B-操作员树。你认为这三个阶段中哪一个更好避免？

除了谓词下推，能说说其他优化吗？不要谈论数据倾斜调整。

你刚才提到了可分压缩格式。哪些压缩格式支持分段？

了解jvm？说说垃圾收集算法。

java和scala中哪个更常见？

如果我现在要用地图收藏，你觉得哪个适合多线程访问？

如何删除线程监控

Spark出现OOM，你觉得应该怎么调？不要移动jvm的参数

如果大表加入小表时出现问题，你认为应该如何优化？

如果简单数据量太大，现在出现OOM怎么办？

现在，如果我增加洗牌过程中的并行度，我能缓解数据倾斜吗？

你对未来有什么计划？(五年内)

我向面试官询问了部门的大数据业务以及对我未来发展的建议。

两份面条(40分钟)

如何实现ThriftServer的HA，能告诉我实现的思路吗？

你能告诉我动物园管理员的值班机制是如何实现的吗？

场景：现在有一个客户端和两个服务器。当我动态加入一台机器，或者删除一台机器，或者一台机器停机了，客户端应该如何感知并谈论实现思路(没有Zookeeper)？

00-1010简历项目介绍、要点

RDD

介绍爬虫、分类算法介绍 JVM介绍

7.汽*之家（大数据部–基础平台组）

实习时间，能实习多久 MapReduce的执行流程 map最多可以有几个，combiner阶段，举2个不能使用combiner的例子 hql转MapReduce的流程说下 Spark Shuffle调优，调哪几个参数 Spark Shuffle有哪几个类 hashshuffle的consolidate机制被移除取代了，为什么？你觉得它有什么缺陷计算机网络，三次握手，为什么需要三次在这个过程中，可以携带数据嘛 Synchronized与volatile的区别二分查找算法的时间复杂度、空间复杂度说下你的能耗资源统计分析系统项目你们最终的数据是存哪的？为什么使用es，而不是使用关系型数据库(MySQL) 重跑的设计，是指定批次重跑嘛，怎么设计的 ResourceManager HA的设计，如何设计？平台的权限怎么做的？面试官最后主动介绍了下部门，对我的建议是java基础不行，没做过相关的项目，真实工作中不可能就管一块

8.蚂*金服（保险事业群）

项目中的亮点，说说小文件合并、整条链路的重跑设计技术选型：MapReduce VS Spark 日志格式是怎么样的项目开发的团队有多少人，规模多大关于Flume 与 Spark是怎么学习的 xxx专业是你的高考第一志愿吗除了日志流量分析项目，还有哪些项目说了Hive的项目，被面试官指太简单有没有做个Web相关的有没有关注名人的博客对大数据领域的看法有没有其它的兴趣爱好

9.猫*

一面

自我介绍 Hive窗口函数你用过哪些？哪些场景下使用的，有什么功能？ left join、right join、join的区别 rdd的特性 spark怎么划分stage 哪些操作出发job （trasformation action） spark参数调优 spark数据倾斜调优？如何进行调优？数据倾斜不用spark处理，可以用hive处理吗？hive中也有一个设置参数加随机数你知道吗？说下用过哪些linux命令 spark wordcount代码口述 java 常用集合：hashtable、hashmap、concurrenthashmap spring ioc aop 实现原理 flume主要用来做什么 mysql索引原理 spring bean的生命周期 jvm了解吗简单说下jvm原理 GC机制 spring DI 机制 kafka 消费者写过吗 offset偏移量怎么维护？ yarn 集群两种模式知道吗？有什么区别？ mr运行流程 mr中的shuffle阶段的优化现在有两张表 user (用户id)：所有用户订单表（用户id 订单id 时间）：今天的所有订单需要知道今天没有买到票的用户两种方式 1.not in 效率不行 2.left join 查询订单表同一天购买两个订单的用户 count求和 having count(*)=2(having后面可以加聚合函数) 每个用户买过的第二条订单 rdd里面是什么样的结构数据结构与算法相关：快排、二叉树遍历递归与非递归、检查一个链表是否有环知道几种方法？

二面

自我介绍项目相关 spark中的数据倾斜 spark提交一个程序怎么划分 spark数据倾斜你是怎么处理的数据解析你使用的什么（spark sql ）离线项目相关：离线数据处理 spark sql最终生成多少个文件最终生成的文件是否存在小文件的问题自己搭建过集群环境吗 hive sql 写的多吗，是写sql 多还是代码多，mr写过吗 kafka topic会有多个partition？为什么要建立partition？ hive的优化 hive两个表join一个大表一个小表小表满足多大要求才会放入内存 mapjion原理 mapjoin从那个版本开始？用过spring吗？spring dao层有什么用？用的hibernate还是mybatis？ spring 数据库连接池有哪些类型？用的哪一个？ spring配置多个库支持吗？ linux命令：查看机器负载情况？查看进程占用的端口？看内存？看磁盘？我有三个线程要求都达到一种状态之后在继续执行问我能去他们那边面试吗？或者线下宣讲会

10.海**视

一面（电话25分钟）

数据倾斜的解决，怎么知道哪里倾斜自定义类的广播 cache机制，rdd和df的cache什么区别 spark动态内存，堆内和堆外 rdd算子，map,mappartitions,foreach，union 宽依赖，窄依赖 spark DAG过程，doOnrecive，eventloop执行过程 stage和task怎么分类 spark调优概念，executor，worker，job 用没用过spark什么log，没记住讲讲sparkSQL数据清洗过程

二面（现场30分钟）

问了很多项目相关的 RDD有什么特点？如果RDD链路很长如何避免重新计算 kafka offset了解吗项目中如何较少网络传输如何保证存储和索引的一致性项目中解决过的比较复杂的问题

11.vi**

自我介绍问项目相关 tcp udp http 和 https 线程进程死锁多线程锁分布式锁 HashMap底层 HDFS、MapReduce工作流程 awk和sed命令

12.知*

合并2个有序链表 java三大特性的理解，如何去应用设计模式 jvm内存分配、垃圾回收算法 java集合框架 Spark shuffle和MapReduce shuffle的区别 Scala的柯里化和隐式转换函数式编程

13.猪八*

MapReduce的工作流程 RDD的五大特性项目相关

大数据面试算法题(大数据etl面试题及答案)