hadoop基础教程,hadoop使用教程

百科全书： Hadoop是由Apachefoundation开发的分布式系统基础架构。

Hadoop专为离线和大数据分析而设计，不适用于随机读写一些记录的在线事务处理模型。

Hadoop=HDFS (文件系统、数据存储技术相关) Mapreduce (数据处理) ) Hadoop数据源可以是任意格式，在处理半结构化和非结构化数据方面优于关系数据库

函数表达式为Mapreduce而不是SQL。 SQL是查询语句，但Mapreduce使用脚本和代码。应用于关系数据库时，熟悉SQL的Hadoop具有开源工具hive。

hadoop是用java写的，版本很混乱，初学者可以从1.2.1开始学习

1 .数百、数千台服务器构成集群，需要始终检测服务器是否发生故障

2 .通过流读取数据更高效、更快

3 .存储节点具有运算功能，省略了在服务器之间发送和接收数据的网络带宽限制

4.1次写入、多次访问、无数据修改

5 .多平台

namenode:master负责总体日程安排、调整请求的处理等

(一个群集只有一个namenode，但可以在多个群集上配置一个大群集。在这种情况下，有多个namenode。在这种情况下，namenode有两种称为active的状态，以及一个大群集只有一个namenode的状态。一个是standby )

namenode的两个主要功能：从客户端接收读写服务的元数据(基本信息，如DataNode的存储位置，fsimage和edits文件) )。

fsimage是在格式化namenode时生成的，而edits是在用户操作添加或修改时生成的日志

datanode:slave、存储节点、备份、普通本地2分、其他服务1分

机架：多个DataNod节点，主节点通过机架识别技术了解所需的数据位置

数据块：的存储单元，一般为64m (在Hadoop 2中为128M ) ) )。

始终保持心跳通信，确保每个数据备份到三个节点

的read在读取完第一个数据块后读取下一个数据块。如果在读取过程中一个数据块出现问题，请记录它以查找另一个备份，然后再也不会读取错误的数据块

map负责批处理操作，如果要计算1TB数据中my的读取数，请启用100个map，为每个map计数0.01TB的数据，最终汇总为reduce

作业(Job ) :运行MapReduce所需的所有jar组件

任务：映射任务和创建任务

Key用同样的结果进行reduce统计整合

作业通常提交jar包和配置文件

时间表通常默认采用FIFO时间表。也就是说，在考虑优先顺序后，进行先进先出

任务跟踪者一直想向任务跟踪者传达任务信息，有空就主动申请工作

典型的生产环境是完全分布式模式。