分布式数据库原理及应用,以下关于云计算与云存储概念

文章目录一、分布式存储基础二、文件存储三、分布式文件系统四、实践：分布式存储系统Ceph

一.分布式存储基础

(1)根据数据类型

1 )非结构化数据(包括文本、图像、图片、音频、视频信息等)。

2 )结构化数据)与收纳在关系数据库中的二维关系表结构相对应，结构化数据的模式和内容是分离的，数据的模式需要事先定义) )。

3 )半结构化数据) HTML文档是典型的半结构化数据。半结构化数据的模式结构和内容混在一起，没有明确的区别，也不需要预先定义数据的模式结构)

)2)由于数据类型的多样性，不同的分布式存储系统适合处理不同类型的数据。因此，可以将分布式存储系统分为以下四类：

1 )分布式文件系统)网络APP中经常需要存储大量的图像、音频、视频等非结构化数据。这样的数据以对象的形式组织，一般把这样的数据称为Blob (二进制大对象)数据，并保存在分散文件系统内。典型的有Taobao文件系统(TFS )。分布式文件系统还经常用作分布式表系统和分布式数据库的底层存储，例如Google的GFS。

分布式文件系统用于存储三种类型的数据： Blob对象、定长块和大型文件。

2 )用于存储分布式键值(Key-Value )系统)关系的简单半结构化数据。提供基于主键的创建、读、更新和删除(crud )功能。这意味着根据主键创建、读取、更新或删除密钥记录。分布式键值系统是分布式表系统的简化，通常用作缓存。从数据结构的角度看，分布式键值系统支持将数据分布在群集中的多个存储节点上。 )一致性哈希是分布式键值系统中常用的数据分布技术。

3 )分布式表系统) )主要用于半结构化数据的存储。不仅支持简单的CRUD操作，还支持主键范围的扫描。 (典型的分布式表系统包括Google Bigtable、Microsoft Azure Table Storage、Amazon DynamoDB等。选择题

4 )分布式数据库()用于存储大型结构化数据。使用二维表组织数据，并提供经典的SQL关系查询语言。关系数据库是迄今为止最成熟的存储技术。 )为了解决关系数据库面临的可扩展性、高并发性和性能问题，出现了各种各样的非关系数据库。这样一个称为NoSQL的系统可以理解为“Not Only SQL”的意思。

3，20世纪末，基于光纤通道的存储区域网络(SAN )和网络连接存储(NAS )技术得到了越来越广泛的应用。

)1) SAN )通过将磁盘存储系统直接连接到服务器提供可扩展、可靠的存储环境。可靠的光纤通道交换机和光纤通道网络协议确保了设备之间链路的可靠性和效率。设备之间的连接接口主要是FC和SCSI(FC病毒预防、病毒一般攻击报头、FC解封装、报头末尾的报告) )

) NAS )通过各种基于TCP/IP的高级APP应用程序在工作站和服务器之间访问文件，并在工作站客户端和NAS文件共享设备之间建立直接连接。 NAS隐藏文件系统的下级实现，重视上层的文件服务实现，具有良好的可扩展性。）

(3) GFS )谷歌是为大规模分布式数据密集型APP应用而设计的可扩展分布式文件系统。

(GFS可以将1万台以上的廉价PC连接到一个大型Linux集群上，具有高性能、高可靠性、可扩展性、超大容量等优点。 ) GFS采用单个主服务器多通道服务器，实现系统间的交互。 (主服务器主要存储命名空间到文件的映射、文件到文件块的映射、文件块到Chunk Server的映射，每个文件块对应三个Chunk Server。)

二.文件存储器1，初始并行文件系统有BFS和CFS。它们在大规模并行处理(MPP )结构的超级计算机上运行。

三.分布式文件系统1，分布式文件系统的基本概念：

(1)异常)大规模分布式存储系统的核心问题之一是自动容错。但是，由于服务器节点不可靠，网络也不可靠，因此在系统运行过程中可能会出现各种异常。）

)2)超时) )如果一个节点向另一个节点发起远程调用，则远程调用的结果将有三种状态：成功、失败和超时也称为分布式存储系统的三种状态。

(3)一致性：副本是分布式存储系统容错技术的重要手段，多个副本同时存在，保证副本之间的一致性是整个分布式系统的理论核心。

(4)测量指标

（

1 )性能)其中，系统吞吐量是指在给定时间系统可以处理的请求总数，通常以每秒处理的读写数来衡量。系统响应时间是从发出请求到返回结果所消耗的时间。这两个指标往往矛盾，追求高吞吐量的系统往往难以实现低延迟，而追求低延迟的系统的吞吐量也受到限制。

2 )可用性)系统可用性可以用系统停止服务的时间与正常服务时间的百分比来衡量。

3 )一致性

4 )可扩展性

）

2，分布

式系统能够将数据分布到多个节点，并在多个节点之间实现负载均衡。其方式主要有两种：
（1）散列分布：如：一致性散列
（2）顺序分布

四、实践：分布式存储系统Ceph

1、Ceph是一个统一的、分布式的存储系统，具有出众的性能、可靠性和可扩展性。其中，“统一”和“分布式”是理解Ceph的设计思想的出发点。
（统一：意味着Ceph可以以一套存储系统同时提供“对象存储”、“块存储”、“文件系统”三种功能）

2、 Ceph最初设计的目标应用场景就是大规模的、分布式的存储系统，是指至少能够承载PB量级的数据，并且由成千上万的存储节点组成。在Ceph的设计思想中，对于一个大规模的存储系统，主要考虑了三个场景变化特征：存储系统的规模变化、存储系统中的设备变化以及存储系统中的数据变化。

3、随着云计算的发展，Ceph乘上了OpenStack的春风，受到各大厂商的欢迎，成为IaaS三大组件（计算、网络、存储）之一。