一、HBase的特征是什么
1 .基于1.hbaseHadoop的hdfs存储,由zookeeper管理的分布式基于列的存储数据库。
2.HBase适用于存储半结构化或非结构化数据,数据结构字段不充分确定或杂乱无章、难以用概念提取的数据。
3 .不保存3.HBase为空的记录。
4 .基本表格包括rowkey、时间戳和列族。 写入新数据时,时间戳更新,可以同时询问早期版本。
5.HBase为主从结构。 Hmaster为主节点,Hregionserver为从节点。
二. HBase和hive的区别
注: (参考HIVE和hbase的区别) ) ) )。
三.说明HBase的rowkey的设计原则
注: ((说明HBase的rowkey的设计原则) ) ) ) ) ) )。
四.说明扫描与get在HBase中功能与实现的异同
HBase的查询实现只有以下两种方法:
1、获取方法(org.Apache.Hadoop.h base.client.get ) ) ) ) ) ) )。
Get的方法处理分为两种:设置了ClosestRowBefore和未设定的rowlock。 主要用于保证行的事务性。 也就是说,各Get用1个row标记。 一个row可以有很多family和column。
2、在指定条件下获取一批记录。 扫描方法((org.Apache.Hadoop.h base.client.scan ) ) )使用扫描方式来实现条件搜索功能。
1 )扫描可以通过设置缓存和设置缓存的方法加快速度(空间改变时间);
2 )扫描可以通过setStartRow和setEndRow限定范围([start,end]start是封闭区间,
结束是开放区间)。 范围越小,性能越高。
3 )、扫描可以通过setFilter方法添加过滤器,这也是分页、多条件查询的基础。
五.说明如何解决h base region太小和region太大造成的冲突
在Region overver大会上多次出现compaction,读取数据并重写到hdfs,占用io,在region overver大会上多次导致剥离,导致region脱机,影响访问服务,从而导致
六.compact在HBase中的用途是什么? 什么时候触发? 分为哪两种? 有什么区别? 有哪些相关的配置参数?
在hbase中,memstore数据每次刷新到磁盘时都会形成一个storefile,当storefile的数量达到一定程度时,必须将storefile文件用于compaction操作。
压缩角色:
1 .合并文件
2 .清除过期、多余版本的数据
3 .提高数据读写效率
在HBase中,实现了两种压缩方式。 名为minor and major .的两种compaction方式的区别如下。
1、Minor操作仅用于某些文件的合并操作和设置ttl的过程,包括minVersion=0
不进行任何期间版清理、删除数据、多版数据的清理工作。
2、Major操作对Region下的HStore下的所有StoreFile执行合并操作,最终整理合并一个文件。