hadoop在线教程,hadoop 入门实例

关注微信公众号“假装正经的程序员”一.什么是hadoop

Hadoop作为业界大数据标准的开源软件而闻名，能够在分布式环境中处理大量数据。大多数主要制造商以Hadoop开发工具、开源软件、商业化工具和技术服务为主。今年，EMC、Microsoft、Intel、Teradata和Cisco等大型IT企业大幅增加了对Hadoop的投资。

二、hadoop能做什么

hadoop擅长日志分析，facebook使用Hive进行日志分析，2009年facebook有30%的非程序员使用HiveQL进行数据分析。 Hive也用于淘宝搜索中的定制过滤器；使用Pig，还可以进行高级数据处理，包括在Twitter和LinkedIn上用于寻找熟人的人，可以实现类似Amazon.com的协作过滤的推荐效果。淘宝的商品推荐也是！在雅虎！的Hadoop作业有40%通过pig运行，包括识别和过滤垃圾邮件，以及用户配置文件建模。 (2012年8月25日最新更新。天猫的推荐系统是hive，少量试试mahout吧！）

三. hadoop的核心

1.HDFS : hadoopdistributedfilesystem分布式文件系统

2.yarn : yetanotherresourcenegotiator资源管理调度系统

3.Mapreduce :分布式运算框架

HDFS体系结构

主从结构

主节点，namenode

从节点上，有很多： datanode

由namenode负责：

接收用户交互请求

维护文件系统的目录结构

管理文件和块的关系，以及块和数据节点的关系

由datanode负责：

保存文件

文件被分成块保存到磁盘中

为了确保数据的安全，文件有多个副本

Secondary NameNode负责：

将fsimage和edits文件合并以更新NameNode中的元数据

五. Hadoop的特点

可扩展性：可以可靠地(可恢复)存储和处理千兆字节(PB )数据。

低成本(Economical )可以在由普通计算机组成的服务器组中分发和处理数据。这些服务器场总共可以达到数千个节点。

通过分发“效率”(Efficient )数据，hadoop可以在数据所在的节点上并行(parallel )处理，从而非常快。

可靠性： hadoop可以自动保留数据的多个副本，并在任务失败后自动重新定位计算任务。

NameNode 1.简介

namenode是整个文件系统的管理节点。他维护着整个文件系统的文件目录树、文件/目录元信息以及与每个文件对应的数据块列表。接收用户的操作请求。

这些文件包括：

fsimage:元数据镜像文件。保存一段时间内NameNode存储器的元数据信息。

edits:操作日志文件。

fstime:保存上次检查点的时间。

2.NameNode的工作特点

NameNode始终将元数据存储在内存中，并处理“读取请求”。当“写入请求”到来时，NameNode首先将editlog写入磁盘。也就是说，将日志写入edits文件，在恢复正常后修改内存并返回给客户端。

Hadoop维护个人的fsimage文件(即NameNode中的元数据)的镜像，但fsimage始终与NameNode内存中的元数据不匹配，而是通过每隔一段时间合并edits文件来保存内容Secondary NameNode用于合并fsimage和edits文件以更新NameNode的元数据。

3 .什么时候检查点

fs.checkpoint.period指定两次checkpoint之间的最大间隔。默认值为3600秒。

fs.checkpoint.size规定edits文件的最大值，无论是否达到最大时间间隔，只要超过此值，就会强制执行checkpoint。默认大小为64M。

七.次级NameNode1.前言

HA的一个解决方案。不支持热备盘。配置一下就行了。

执行流程：从NameNode下载元数据信息(fsimage，edits )，合并两者生成新的fsimage，本地保存，推送至NameNode，替换旧的fsimage。

缺省情况下安装在NameNode节点上，但这样不安全。

2 .工作流程

（1）secondary通知namenode切换edits文件；
（2）secondary从namenode获得fsimage和edits(通过http)；
（3）secondary将fsimage载入内存，然后开始合并edits；
（4）secondary将新的fsimage发回给namenode；
（5）namenode用新的fsimage替换旧的fsimage；

八.DataNode

提供真实文件数据的存储服务。
文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block.
dfs.block.size
不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间;
Replication:多复本。默认是三个。

九.HDFS （1）读过程

1.初始化FileSystem，然后客户端(client)用FileSystem的open()函数打开文件

2.FileSystem用RPC调用元数据节点，得到文件的数据块信息，对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。

3.FileSystem返回FSDataInputStream给客户端，用来读取数据，客户端调用stream的read()函数开始读取数据。

4.DFSInputStream连接保存此文件第一个数据块的最近的数据节点，data从数据节点读到客户端(client)

5.当此数据块读取完毕时，DFSInputStream关闭和此数据节点的连接，然后连接此文件下一个数据块的最近的数据节点。

6.当客户端读取完毕数据的时候，调用FSDataInputStream的close函数。

7.在读取数据的过程中，如果客户端在与数据节点通信出现错误，则尝试连接包含此数据块的下一个数据节点。

8.失败的数据节点将被记录，以后不再连接。

（2）写过程

1.初始化FileSystem，客户端调用create()来创建文件

2.FileSystem用RPC调用元数据节点，在文件系统的命名空间中创建一个新的文件，元数据节点首先确定文件原来不存在，并且客户端有创建文件的权限，然后创建新文件。

3.FileSystem返回DFSOutputStream，客户端用于写数据，客户端开始写入数据。

4.DFSOutputStream将数据分成块，写入data queue。data queue由Data Streamer读取，并通知元数据节点分配数据节点，用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。

5.DFSOutputStream为发出去的数据块保存了ack queue，等待pipeline中的数据节点告知数据已经写入成功。

6.当客户端结束写入数据，则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点，并等待ack queue返回成功。最后通知元数据节点写入完毕。

7.如果数据节点在写入的过程中失败，关闭pipeline，将ack queue中的数据块放入data queue的开始，当前的数据块在已经写入的数据节点中被元数据节点赋予新的标示，则错误节点重启后能够察觉其数据块是过时的，会被删除。失败的数据节点从pipeline中移除，另外的数据块则写入pipeline中的另外两个数据节点。元数据节点则被通知此数据块是复制块数不足，将来会再创建第三份备份。