首页 > 编程知识 正文

大数据开发面试题(一上来就问薪资的求职者)

时间:2023-05-05 20:41:20 阅读:85374 作者:146

面试的三家公司的面试问题如下所示

第一家

数据源是什么? 指标是什么? 做项目的时候,配置你们怎么选择的从datax到hdfsdatax的并发条件,使用linux显示hive的表。 使用hive命令显示内部表的外部表。 发生了kafka的分区hbase批量写入数据。 在行级事务锁定linux中显示文件前10行sqoop的并发操作和条件如何根据hadoop节点动态地上下分组和合计。 使用mapreduce实现kafka redis如何选定用于什么场景的hive表的结构经常发生变化如何处理(除了外部表以外还有什么解决方法) ) mongodb作为元数据信息和规则信息,或者说解决集群中一台dstanode如何复制的kafka如何在不丢失数据的情况下倾斜spark-streaming数据的两个原因,以及解决方案mysql的单个示例和联合索引mysql数据库的备份方案

scala和java的区别在反射spark上的应用反射在hadoop上的应用反射和在通用sql上的left join和join的区别在a.sh上执行b.shhive的数据倾斜如何解决文件大小1G,每行都是单词, 要求最高频率单词top100的1M内存spark和sparkStraming常用代码hive的新用户和老用户通过调查登录问题使用hive请求续航时间,使用pvuv使用hive请求连续登录

hive的外部表和内部表的区别hive的分区和桶的区别在hive的索引hdfs的ha中, zookeeper所起到的作用的监视服务是zookeeper平时具有什么样的作用mr的shuffle和spark的shuffle的区别flink和sparkStreaming的区别机架识别(上传文件后怎么保存?

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。