hivesql面试必会6题经典,大数据面试题1000道

一、HBase的特征是什么

1 .基于1.hbaseHadoop的hdfs存储，由zookeeper管理的分布式基于列的存储数据库。

2.HBase适用于存储半结构化或非结构化数据，数据结构字段不充分确定或杂乱无章、难以用概念提取的数据。

3 .不保存3.HBase为空的记录。

4 .基本表格包括rowkey、时间戳和列族。写入新数据时，时间戳更新，可以同时询问早期版本。

5.HBase为主从结构。 Hmaster为主节点，Hregionserver为从节点。

二. HBase和hive的区别

注： (参考HIVE和hbase的区别) ) ) )。

三.说明HBase的rowkey的设计原则

注： ((说明HBase的rowkey的设计原则) ) ) ) ) ) )。

四.说明扫描与get在HBase中功能与实现的异同

HBase的查询实现只有以下两种方法：

1、获取方法(org.Apache.Hadoop.h base.client.get ) ) ) ) ) ) )。

Get的方法处理分为两种：设置了ClosestRowBefore和未设定的rowlock。主要用于保证行的事务性。也就是说，各Get用1个row标记。一个row可以有很多family和column。

2、在指定条件下获取一批记录。扫描方法((org.Apache.Hadoop.h base.client.scan ) ) )使用扫描方式来实现条件搜索功能。

1 )扫描可以通过设置缓存和设置缓存的方法加快速度(空间改变时间)；

2 )扫描可以通过setStartRow和setEndRow限定范围([start，end]start是封闭区间，

结束是开放区间)。范围越小，性能越高。

3 )、扫描可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础。

五.说明如何解决h base region太小和region太大造成的冲突

在Region overver大会上多次出现compaction，读取数据并重写到hdfs，占用io，在region overver大会上多次导致剥离，导致region脱机，影响访问服务，从而导致

六.compact在HBase中的用途是什么？什么时候触发？分为哪两种？有什么区别？有哪些相关的配置参数？

在hbase中，memstore数据每次刷新到磁盘时都会形成一个storefile，当storefile的数量达到一定程度时，必须将storefile文件用于compaction操作。

压缩角色：

1 .合并文件

2 .清除过期、多余版本的数据

3 .提高数据读写效率

在HBase中，实现了两种压缩方式。名为minor and major .的两种compaction方式的区别如下。

1、Minor操作仅用于某些文件的合并操作和设置ttl的过程，包括minVersion=0

不进行任何期间版清理、删除数据、多版数据的清理工作。

2、Major操作对Region下的HStore下的所有StoreFile执行合并操作，最终整理合并一个文件。