首页 > 编程知识 正文

分布式文件系统 HDFS 简介

时间:2023-05-06 08:45:00 阅读:41466 作者:3420

文章目录1. HDFS简介2. HDFS起源发展3. HDFS设计目标4. HDFS应用场景5. HDFS关键特性- -主从结构6. HDFS关键特性- -块存储机制7. HDFS关键特性- -复制机制

1. 1. HDFS简档HDFS (硬盘驱动器文件系统)是Hadoop分布式文件系统。 Apache Hadoop的核心组件之一,作为大数据生态圈底层的分布式存储服务而存在。 分布式文件系统解决大数据如何存储问题分布式是指位于横跨在多台计算机上的存储系统。 HDFS是一个在常规硬件上运行的分布式文件系统,来自高度容错,非常适合存储大型数据(如TB和PB )的APP应用程序。 HDFS使用多台计算机存储文件,并提供统一的访问接口,使用分布式文件系统,就像访问常规文件系统一样。 2. HDFS起源发展Doug Cutting是Nutch项目研发的引领者,Nutch的设计目标是构建大型全网搜索引擎,包括网页捕获、索引、查询等功能。 随着爬虫捕获页数的增加,面对严重的可扩展性问题—— 如何解决数十亿网页的存储和索引问题。2003年,谷歌发表的论文为此问题提供了切实可行的解决方案。

《分布式文件系统(GFS),可用于处理海量网页的存储》 Nutch的开发人员完成了相应的开源以实现HDFS,与Nutch的分离和MapReduce成为了独立的项目HADOOP。

3. HDFS设计目标硬件故障(Hardware Failure)是常态,HDFS可能配置了数百、数千个服务器,每个组件都可能发生故障。 因此,故障检测和自动快速恢复是HDFS的核心体系结构目标。 在HDFS中的应用主要是流式读取数据(Streaming Data Access)HDFS,旨在使用于批处理而不是用户交互。 与数据访问的响应时间相比,更重视数据访问的高吞吐量。 典型的HDFS文件大小为GB到TB级别。 所以,HDFS必须提供大文件(Large Data Sets)高聚合数据带宽,在一个群集上支持数百个节点,在一个群集上也支持千万级别的文件。 大多数HDFS APP应用程序对文件要求的是write-one-read-many访问模式。 创建、写入和关闭单个文件后,无需修改。 这种假设简化了数据完整性问题,并提供了高吞吐量的数据访问。移动计算的代价比之移动数据的代价低。个APP应用程序要求的计算越接近所操作的数据,效率越高。 将计算移动到数据附近明显优于将数据移动到APP应用程序中的某个位置。

HDFS旨在方便地从一个平台移植到另一个平台。 这有助于将HDFS广泛用作大量APP应用程序的首选平台。 4. HDFS应用场景

5. HDFS的重要特点主从结构HDFS采用master/slave结构。 典型的HDFS群集由一个Namenode和一定数量的Datanode组成。 Namenode是HDFS主节点,Datanode是HDFS从节点。 两个角色扮演各自的角色,共同协调分布式文件存储服务。

6. HDFS的重要特性块存储机制HDFS的文件位于物理上是分块存储(block),块大小由hdfs-default.xml的dfs.blocksize中的配置参数规定3358www.Sina.com/(134217728 )。

7. HDFS的重要功能复制机制文件的所有块都有副本。 每个文件的块大小(dfs.blocksize )和复制因子(dfs.replication )是可设置的。 您可以在创建文件时指定复制系数,也可以稍后在命令中更改复制系数。 默认的默认大小是128M,即额外复制两份,加上本身总共复制三份。

8. HDFS的重要特性namespacehdfs允许传统的dfs.replication的值是3用户创建目录并将文件保存在这些目录中。 文件系统的命名空间层次结构与大多数现有文件系统相似。 用户可以创建、删除、移动和重命名文件。 Namenode负责管理文件系统的namespace名称空间,Namenode将记录对文件系统的名称空间或属性所做的任何更改。 HDFS通过路径访问文件,例如HDFS ://NameNode :端口/dir-a/dir-b/dir-c/file.data

9. HDFS的重要功能在元数据管理HDFS中,由Namenode管理的元数据有两种类型:文件本身的属性信息

文件名、权限、修改时间、文件大小、复制因子和块大小。

文件块位置映射信息

记录文件块和DataNode之间的映射信息,也就是哪个块位于哪个节点上。

10. HDFS的重要特性-块存储文件中每个块的具体存储管理由DataNode节点负责。 每个块可以存储在多个DataNode中。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。