1、hadoop1.0时期架构
2、hadoop2.0时期架构
3、hdfs架构
活动名称
主主(只有一个),管理HDFS的命名空间,管理块映射信息; 复制策略配置; 处理客户端读写请求的http://www.Sina.com/http://www.Sina.com/http://www.Sina.com/3358 www.Sina.com/3358 www.sinw.Sina
来自33558www.Sina.com/Google的MapReduce论文
2004年12月发布
硬件地图是谷歌地图克隆版
MapReduce特征
卓越的可扩展性
高容错性
适用于Pb级以上海量数据的离线处理
Secondary NameNode
NameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Active NameNode 出现故障时,快速切换为新的 Active NameNode。
7、hive (基于Mr的数据仓库)。
Facebook开源,最初用于大量结构化日志数据的统计; 扩展传递加载(ETL )工具构建在Hadoop之上的数据仓库; 数据计算使用MapReduce,数据存储使用HDFS
Hive定义了SQL查询语言——HQL的类型
它类似于SQL,但不完全一样
通常用于离线数据处理(采用MapReduce ); 可以认为是HQLMR的语言翻译机
8、Hbase (分布式数据库) )。
谷歌发表的Bigtable论文
2006年11月发布
Hbase是谷歌bigtable克隆版
Datanode