大数据开发面试题(一上来就问薪资的求职者)

面试的三家公司的面试问题如下所示

第一家

数据源是什么？指标是什么？做项目的时候，配置你们怎么选择的从datax到hdfsdatax的并发条件，使用linux显示hive的表。使用hive命令显示内部表的外部表。发生了kafka的分区hbase批量写入数据。在行级事务锁定linux中显示文件前10行sqoop的并发操作和条件如何根据hadoop节点动态地上下分组和合计。使用mapreduce实现kafka redis如何选定用于什么场景的hive表的结构经常发生变化如何处理(除了外部表以外还有什么解决方法) ) mongodb作为元数据信息和规则信息，或者说解决集群中一台dstanode如何复制的kafka如何在不丢失数据的情况下倾斜spark-streaming数据的两个原因，以及解决方案mysql的单个示例和联合索引mysql数据库的备份方案

scala和java的区别在反射spark上的应用反射在hadoop上的应用反射和在通用sql上的left join和join的区别在a.sh上执行b.shhive的数据倾斜如何解决文件大小1G，每行都是单词，要求最高频率单词top100的1M内存spark和sparkStraming常用代码hive的新用户和老用户通过调查登录问题使用hive请求续航时间，使用pvuv使用hive请求连续登录

hive的外部表和内部表的区别hive的分区和桶的区别在hive的索引hdfs的ha中， zookeeper所起到的作用的监视服务是zookeeper平时具有什么样的作用mr的shuffle和spark的shuffle的区别flink和sparkStreaming的区别机架识别(上传文件后怎么保存？