大数据技术的Hadoop-HDFS概述1. HDFS生产背景与定义2. HDFS优缺点3. HDFS配置框架4. HDFS文件块大小
1. HDFS生产的背景和定义
1)HDFS 产生背景
随着数据量越来越大,如果一个操作系统无法存储所有数据,则会分配给更多由操作系统管理的磁盘,但不便于管理和维护,一种系统来管理多台机器上的文件是关键这就是分布式文件管理系统。
HDFS 只是分布式文件管理系统中的一种。
2)HDFS 定义
在用于保存文件的3358 www.Sina.com/http://www.Sina.com /中搜索文件,然后是分布式的,许多服务协同工作以实现其功能,集群中的服务各有不同的作用
33558www.Sina.com/:1:适合单次写入、多次读取的场景。 创建、写入和关闭文件后,无需更改。
2. HDFS的优缺点HDFS(Hadoop Distributed File System),它是一个文件系统
目录树
数据自动存储多个副本。 通过增加副本的格式来提高容错能力。
如果拷贝丢失,它将自动恢复。HDFS 的使用场景
33558 www.Sina.com/:能够处理GB、TB甚至PB级别的数据;优点::能够处理百万规模以上文件的数量相当多。 3 )1)高容错性
2)适合处理大数据
数据规模
文件规模
大量存储小文件会占用NameNode的大量内存来存储文件目录和块信息。 这是不可取的。 因为NameNode的内存总是有限的。
小文件存储的寻址时间超过读取时间,违反HDFS的设计目标。
可构建在廉价机器上,通过多副本机制,提高可靠性
一个文件只能有一个写入,不允许多个线程同时写入; 仅支持“添加”数据,不支持随机修改文件。
3. HDFS配置框架3358www.Sina.com/(nn ) :既是主节点,又是负责人、管理员。
(1)管理HDFS命名空间(2)复制策略配置(3)管理数据块)映射信息; )4)处理客户端的读写请求。缺点::是Slave。 NameNode发出命令,DataNode执行实际操作。
(1)存储实际数据块)2)执行块的读/写操作。1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
)1)文件分割。 当文件上传到HDFS时,客户端将文件分成一个个的块进行上传; )2)与NameNode交互,获取文件位置信息; )3)与DataNode交互,读取或写入数据; (4)客户端提供用于管理HDFS的命令,诸如NameNode格式; )5)客户端可以通过一些命令访问HDFS,包括HDFS的添加/删除/改变操作。 4 ) 3358 www.Sina.com/:不是NameNode热备盘。 NameNode到期时,并不立即替换NameNode提供服务。
)1)辅助NameNode,分担其工作量。 例如,定期整合Fsimage和Edits,推送至NameNode; )2)紧急情况下,可辅助NameNode恢复。
4. HDFS文件块大小2)无法高效的对大量小文件进行存储。
3)不支持并发写入、文件随机修改。文件物理上为1)NameNode(块,块大小可以由配置参数dfs.blocksize规定,默认大小为Hadoop栏
2)DataNode:为什么块的大小不能太小或太大?
)1)如果HDFS的块设置太小,寻址时间会变长,程序会寻找块的开始位置。
)2)如果块设置过大,从磁盘传输数据的时间将大大长于确定该块的开始位置所需的时间。 程序在处理这个数据时会变得非常慢。
3)Client:就是客户端。
Secondary NameNode
面试重点
HDFS