1 .通常集群最重要的瓶颈是哪个? 答: c盘
a )处理器
b )网络
c )磁盘IO
d )内存
2.Hadoop支持数据的随机读写。 (错了)
分析: lucene支持随机读取和写入,而hdfs只支持随机读取。 但是,HBase可以修复。 为了解决Hadoop无法处理的问题,HBase提供随机读写。 HBase从基本设计开始,侧重于各种可扩展性问题。 表可以有非常“贵”、几十亿的数据行。 也可以是有数百万列的“宽”。被水平分割,在数千个普通商用机器节点上自动复制。 的模式是物理存储的直接反映,系统可以提高有效的数据结构的序列化、存储和检索。
3 .从属节点存储数据,所以磁盘越大越好。 (错误)
分析:如果Slave节点故障,数据恢复将成为难题
4.hadoopdfsadminreport命令检测HDFS损坏的块。 (错误)
使用此命令可以快速确定哪个节点发生故障、HDFS的容量和使用情况以及每个节点的硬盘使用情况。
5.Hive如何优化?
a .优化排序:排序依据比排序依据更有效率
b .分区:使用静态分区(statu_date='20160516 ',location='hdsdyc ' ),每个分区对应于hdfs上的一个目录
c .减少作业和任务的数量:使用表链接操作
解决groupby数据倾斜的问题:如果设置hive.groupby.skewindata=true,则hive将自动进行负载平衡
e .将小文件合并为大文件:表连接操作
f .使用UDF或UDAF函数:
6.spark集群运算的模式
Spark有各种各样的模式。 最简单的是独立本地模式,也有独立伪分布式模式。 复杂的东西在集群中运行,现在在Yarn和Mesos中运行得很好。 当然,Spark也有附带的单机模式。 大多数情况下,标准模式就足够了。 如果企业已经有Yarn或Mesos环境,则很有用
standalone (集群模式)是典型的Mater/slave模式,但也可以看到Master存在单点故障。 Spark支持ZooKeeper以实现高可用性。
on yarn (集群模式)在yarn资源管理器框架上运行,yarn负责资源管理,Spark负责任务的调度和计算。
on mesos (集群模式)在mesos资源管理器框架上运行,mesos负责资源管理,Spark负责任务的调度和计算。
on cloud (集群模式)例如AWS的EC2,使用该模式可以轻松访问Amazon的S3的Spark支持HDFS和S3这多个分布式存储系统。
列举几个hadoop生态圈的组件,简单说明一下?
Zookeeper:是一种开源分布式APP协调服务,可以基于zookeeper实现同步服务、配置维护和命名服务。
Flume:是一种高可用性、可靠、分布式、大容量的日志收集、聚合和传输系统。
Hbase:是一个分布式的面向列的开源数据库,使用Hadoop HDFS作为存储系统。
Hive:是基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务并执行的简单sql查询功能。
Sqoop:将关系数据库中的数据导入到Hadoop的HDFS中,或将HDFS中的数据导入到关系数据库中。
8.hadoop节点下线怎么办?
/conf/hdfs-site.xml文件的更改
确定需要脱机的计算机。 dfs.osts.exclude文件包含需要下行机架的计算机。 这是阻止下行机架的机器连接到NameNode
配置完成后进行配置更新操作. /悲伤的煎饼/hadoop dfsadmin -refreshNodes,该操作的作用是在后台移动块
执行3的命令后,需要更换的机器可以关闭,可以看到当前连接到集群的节点。 运行Decommission时,在de commission status 3360 decommissioninprogress运行完成后,将显示“de commission status”(de信用状态)
计算机脱机完成后,从excludes文件中删除。