一、什么是Hadoop？

谷歌发表了两篇论文，分别介绍如何分布式存储海量数据的谷歌文件系统和如何处理海量分布式数据的MapReduce。是大规模集群的数据处理的合理化。在这两篇论文的启发下，DougCutting实现了基于这两篇OSS (开源软件)的论文原则，从而诞生了Hadoop。

Hadoop是一个开放源代码平台，用于分布式存储和处理大数据。 Hadoop作为一种大型分布式数据处理平台，已经成为许多程序员的重要技能。

二、Hadoop能做什么？

大数据时代的到来，给我们的生活、工作、思维方式带来了变化。如何在大数据背后找到价值既是机遇也是挑战。财务数据、电子商务数据、社会数据、游戏数据…这些数据的规模、结构、增长速度给传统的数据存储和处理技术带来了巨大的挑战。幸运的是，Hadoop的诞生及其构建的生态系统给大数据的保存、处理和分析带来了曙光。

“Hadoop能做什么？ ”总结如下。

1、搜索引擎：这是DougCutting的Hadoop设计的初衷，是为了快速索引大型页面； 2、大数据存储：利用Hadoop的分布式存储能力。例如，数据备份、数据仓库等。 3、大数据处理：利用Hadoop的分布式处理能力，如数据挖掘、数据分析等。 4、科研： Hadoop是一个分布式开源框架，对分布式系统有很大的参考价值。

三、具有Hadoop核心的分布式文件系统HDFS

Hadoop分布式文件系统(HDFS )是Hadoop的核心模块之一。这主要解决了Hadoop的大数据存储问题，其思想来源是谷歌的文件系统gfs。 HDFS的主要特征如下。

存储多个拷贝并提供容错功能，以自动恢复丢失的拷贝和停机时间。默认情况下，保存三份副本，并在廉价计算机上运行。

适用于大数据处理。 HDFS默认将文件划分为块，而64M为块。然后，块密钥-值对存储在HDFS中，密钥-值对的映射存储在内存中。小文件太多会增加内存负担。

HDFS的重要作用：

1 .管理文件系统的名称空间。 2 .记录各数据节点上各文件数据的位置和复制信息。 3、协调客户端对文件的访问。 4、记录名称空间的变更或空间的省属性的变更。 5、namenode使用事务日志记录HDFS元数据的更改。使用图像文件保存文件系统名称空间，如文件映射、文件属性等。从社会学的角度看，namenode是hdfs的drdmt，起着管理、协调、操作的作用。

1 .负责物理节点的存储管理。 2、一次写，多次读(不修改)。 3、文件由数据库构成。数据块的大小通常为64MB。 4、数据尽可能移动到各节点。

客户机如何访问HDFS中的文件？具体流程如下：

1、首先，从namenode获取构成文件的数据块的位置列表。 2、其次，我们知道根据位置列表存储数据块的数据节点。 3、最后，访问datanode获取数据。注：名称节点不参与数据的实际传输

在数据存储系统中，数据存储的可靠性非常重要。 HDFS如何保证可靠性？主要采用以下机制。

1、冗余拷贝战略，即所有数据都有拷贝，拷贝数可以用hdfs-site.xml拷贝因子进行设定。 2、作为HDFS“支持机架”的机架战略，通常通过在机架中存储一份拷贝，在另一个机架中存储另一个拷贝，防止机架故障时数据丢失，提供带宽利用率。 3、安全模式、名称节点启动后进入“安全模式”阶段。 4、校验和。客户端通过校验和获取数据，发现数据块是否损坏，然后判断是否要读取副本。 5、删除“垃圾桶”、文件后，首先移动到“垃圾桶/垃圾桶”，可以迅速响应文件。 6、元数据保护、镜像文件和事务日志是名称节点的核心数据，可以构成多个副本。 7 .快照支持在某个时间点保存映像，如果需要，可以将数据恢复到该时间点的状态。

数据挖掘(hadoop在各个领域的应用)

一、什么是Hadoop？

二、Hadoop能做什么？

三、具有Hadoop核心的分布式文件系统HDFS

客户机如何访问HDFS中的文件？具体流程如下：