首页 > 编程知识 正文

大数据,大数据存储技术有哪些

时间:2023-05-06 11:53:28 阅读:53261 作者:3157

的存储器1 .存储方式类似于1.1块存储硬盘,它直接装载在主机上,通常用于主机的直接存储空间和数据库APP应用程序的存储。 那个可以分为两种形式。

das :每台服务器一个存储。 不能在多台机器上直接共享。 必须使用操作系统的功能,如共享文件夹。

SAN :与金融电信水平、高成本存储方式、光纤和各种高端设备相关联,除了可靠性和性能高、高和运输成本高以外,基本上都有优势。

云存储的块存储—具有SAN优势,成本低,无需自行运输,可灵活扩展,并可自由组合不同级别的存储等功能。 存储介质可以从普通硬盘和固态硬盘中选择。

1.2文件存储文件存储与较低的块存储不同,它上升到了APP应用层。 一般指NAS,通过TCP/IP进行访问,协议为NFSv3/v4。 由于它通过网络,并且采用了更高层的协议,因此开销更大,延迟时间一定比块存储更长。 它通常用于在多台云服务器上共享数据,如集中管理服务器日志和共享办公室文件。

1.3对象存储的对象存储具有加快块存储速度和共享文件存储等特性,智能,有自己的CPU、内存、网络和磁盘,比块存储和文件存储更高层云服务提供商一般提供上传并下载读取用户文件的Rest API,便于APP应用集成这类服务。

1.4聚合块存储:与主机进行交互,例如插入硬盘。

文件存储—用于NAS、网络存储和多主机共享数据。

对象存储:与自己开发的APP应用程序(如网盘)打交道。

那些水平越来越高。

2大数据存储方式2.1分布式系统分布式系统包括多个自主处理单元,协同完成通过计算机网络互联分配的任务。 其分割策略能更好地处理大规模的数据分析问题。 主要有以下两种。

分布式文件系统:存储管理需要文件系统支持最低级别存储功能的多种技术的协作。 distributedfilesystemHDFS是一个容错系统,适用于大量处理,并提供高吞吐量数据访问。

分布式键值系统:分布式键值系统用于存储关系的简单半结构化数据。 典型的分布式关键值系统包括亚马逊动态(Amazon Dynamo )和广泛关注的对象存储技术(Object Storage ),它们可以被认为是存储和管理对象而不是数据块的关键值系统

2.2 NoSQL数据库关系数据库已不能满足Web 2.0的需要。 主要是不能满足大量数据的管理需求,不能满足数据的高并发性需求,高可扩展性、高可用性功能太低。

NoSQL数据库的优点:可以支持超大规模的数据存储,灵活的数据模型可以适当地支持web 2.0 APP应用,以及具有强大的向外扩展功能。 典型的NoSQL数据库包括键值数据库、列族数据库、文档数据库和图形数据库。

2.3云数据库云数据库是基于云计算技术发展共享基础架构的方法,部署和虚拟化云计算环境中的数据库。 云数据库不是新的数据库技术,只是作为服务提供数据库功能。 云数据库中使用的数据模型可以是关系数据库中使用的关系模型。 微软的SQLAzure云数据库都采用了关系模型。 有时同一家公司提供使用不同数据模型的多个云数据库服务。

3大数据存储技术路线3.1 MPP结构新型数据库集群采用海量并行处理(MPP )结构新型数据库集群,重点关注行业大数据,采用共享通告结构,队列压力完成分析类APP应用支撑,执行环境多为低成本PC服务器,具有高性能和高可扩展性的特点,在企业分析类APP应用领域得到了极其广泛的应用。

这种MPP产品可以有效地支持PB级别的结构化数据分析,这是传统数据库技术所不能支持的。 对于企业新一代数据仓库和结构化数据分析,当前MPP数据库非常适合。

3.2基于Hadoop的技术扩展和封装。 围绕Hadoop衍生出相关的大数据技术,针对传统关系数据库难以处理的数据和场景(如非结构化数据的存储和计算),充分利用Hadoop的开源优势。 随着相关技术的进步,其应用场景也将逐渐扩大。 目前最典型的应用场景是非结构化、半结构化数据处理、复杂的提取(ETL )过程、复杂的数据挖掘和计算模型,它们是Hadoop扩展和封装在互联网上的实现

3.3大数据一体化大数据一体化PC是一款专为大数据分析处理而设计的软、硬件相结合的产品,专门为服务器、存储设备、操作系统、数据库管理系统和数据的检索、处理、分析用途而预装

4分布式文件系统典型的分布式文件系统如下所示。

GFS即谷歌文件系统,Go

ogle公司为了存储海量搜索数据而设计的专用文件系统。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。
HDFS(Hadoop Distributed File System)源于Google在2003年10月份发表的GFS(Google File System) 论文,它其实就是 GFS 的一个克隆版本。

        开源 http://hadoop.apache.org/

        Ceph是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。由于ceph使用btrfs文件系统,而btrfs文件系统需要Linux 2.6.34以上的内核才支持。

        开源 https://ceph.com/

        Lustre是源自Linux和Cluster的混成词。最早在1999年,由dzdbm创建的集群文件系统公司开始研发,于2003年发布Lustre 1.0。采用GNU GPLv2开源码授权。

        开源 http://lustre.org/

        适合存储小文件、图片的分布文件系统有:

        MogileFS(https://github.com/mogilefs/)

        mooseFS(https://moosefs.com/)

        FastFS(https://github.com/happyfish100/fastdfs)

        TFS(http://tfs.taobao.org/)

        GridFS(https://www.mongodb.com)

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。