数据存储,分布式存储原理

不容忽视的大数据2016-12-1310336027http://www.Sina.com /由于硬件设备的集中存放，对机房空间、散热和重量等都有严格要求；对存储设备要求性能，对骨干网络的带宽也要求很高。

在信息爆炸的时代，人们可以获得的数据呈指数级增长，单纯固定一个地方进行硬盘扩展，在容量大小、扩展速度、读写速度、数据备份等方面都不能满足要求，而且大数据处理系统由于数据类型很多，存储系统需要存储文档、照片、视频等半结构化、非结构化数据，所以大数据存储最好使用传统的集中式存储对搭建和管理的要求较高来管理这些非结构化数据

分布式文件系统可以部署多个低端小容量存储器，设备价格和维护成本低。小容量设备分散部署，对机房环境要求也较低。分布式数据存储将数据分布在多个存储节点上，各节点通过网络连接，统一管理这些节点的资源。此设计对用户透明，系统为用户提供文件系统访问接口，与传统的本地文件系统操作方式类似。这些设计解决了传统本地文件系统的文件大小和文件数量等限制。

在传统的分布式计算系统中，计算节点和存储节点通常是分离的。在执行计算任务时，首先从数据节点向计算节点传输数据。数据转移到计算节点。在此处理方法中，对外部文件数据的I/O访问成为制约系统性能的瓶颈。为了减少大数据并行计算系统中数据通信的开销，有必要考虑将计算向接近数据的方向迁移。例如，分布式数据存储，即存储设备分布在不同的地理位置，数据就近存储模型采用数据/代码互定位的技术方法，在这种方式中计算节点首先计算本地存储的数据量来发挥数据本地化的特征只有在节点无法处理本地数据时，才使用邻域原则来查找其他可用计算节点，并将数据传输至其他可用计算节点。

从各厂商的解决方案来看，面对目前网络APP Pb级海量存储的存储需求，频繁的数据传输是应用MapReduce，在一般的PC上部署节点，通过系统设计

分布式存储系统