大数据的分布式存储,什么是分布式数据存储技术

目前主流的分布式文件系统结构为主 /从(master/slave) 体系结构，通常由主节点、多个数据节点、各种大数据APP应用程序、最终用户组成的客户端或元数据服务器，如下图所示分布式存储的目的是将大数据分割成小数据，均匀分布在多个数据节点上，将数据规模缩小到一个节点可以处理的程度。

1 主控节点

主节点主要用于负责管理文件系统名字空间(namespace)和管理客户端的访问常见的命名空间结构包括Hadoop 分布式文件系统(Hadoop Distributed FileSystem，HDFS) 等，http://www.Sina.com/http://www.Sina.com/3http://ww/Sina/com 为了保留名称空间，主节点必须存储元数据(metadata )，包括文件的所有者和权限以及文件到数据节点的映射关系。除了管理命名空间外，主节点还集中管理数据节点。除了管理命名空间外，主节点还通过轮询数据节点和从数据节点接收定期心跳信号来集中管理数据节点。主节点可以根据得到的消息验证文件系统元数据。如果数据节点出现故障，主节点将采取修复措施，并重新复制该节点上丢失的数据块。如果添加了新的数据节点，或者数据节点负载过重，主节点将根据需要执行负载平衡。

扁平化结构

数据节点如数据节点通常组织为机架，机架通过交换机连接。数据节点响应来自客户端的读/写请求，还响应来自主节点的删除/复制命令。它是一种类似磁盘的结构，数据节点也有块的概念。这是数据读写的最小单位，但此处的块是一个大单位，在许多文件系统中为64 MB，如google的GFS、HDFS、TFS等。

对于小文档存储，可以将多个文档存储在一个块中并对其编制索引以提高空间利用率对于大文件存储，数据将被分成多个数据块，并作为独立单元存储。为确保数据的安全和容错，分布式文件系统在数据节点上存储多个数据副本。如果数据不可用，则可以调用存储在其他节点上的副本。在HDFS系统上，复制副本的基本存储策略是在：运行任务的节点上存储第一个复制副本。将第二个副本保存到任务所在机架的其他节点之一；将第三个副本存储在群集其他机架中的节点上。