1、 什么是MPP?
物理并行处理(MPP )是一种大规模并行处理。 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和APP应用程序的特点划分为各个节点,每个数据节点都是专用网络或商用公共网络非共享数据库群集具有完全可扩展性、高可用性、高性能、高性价比和资源共享等优点。
简单来说,MPP将任务并行分布到多个服务器和节点,在每个节点上计算完成后,将各个部分的结果汇总起来得到最终结果(类似于Hadoop )。
2、MPP(大规模并行处理)架构
(MPP体系结构)
3、 MPP架构特征
并行执行任务
数据分布式存储(本地化);
分布式计算
私人资源
向外扩展;
共享通告体系结构。
4、 MPP服务器架构
在用户看来,多个SMP服务器通过一定的节点互联网络连接,协同工作,执行相同任务,是一个服务器系统。 其基本特征是多个SMP服务器(每个SMP服务器称为节点)通过互连网络连接,每个节点仅访问其本地资源(存储器、存储等)且不完全共享)
5、MPPDB
MPPDB是共享通告体系结构的分布式并行结构化数据库群集,具有高性能、高可用性、高可扩展性,为大型数据管理提供了经济高效的通用计算平台,以及各种数据
6、MPPDB架构
MPP采用完全并行的MPP共享通告分布式平面体系结构。 在该体系结构中,每个节点(node )都是独立的、独立的、节点对等的,整个系统没有单个瓶颈,并且具有非常高的可扩展性。
MPPDB体系结构
7、 MPPDB特征
MPP具有以下技术特征:
1 )低硬件成本)不需要昂贵的Unix服务器和磁盘阵列,完全使用x86体系结构的PC服务器
2 )集群体系结构和部署)完全并行的MPP共享通告分布式体系结构,采用非主部署,节点对等的平面结构
3 )海量数据分布式压缩存储)能够处理Pb以上的结构化数据,并采用散列分布式、随机存储策略存储数据; 同时采用先进的压缩算法,减少存储数据所需的空间,使用空间减少1~20倍,相应地可以提高I/O性能;
4 )数据加载效率)基于策略的数据加载模式,整个群集的加载速度可达2TB/h;
5 )高扩展、高可靠性)支持群集节点的扩展和缩减,支持总量、增量备份和恢复;
6 )高可用性、易维护)数据通过复制副本提供冗馀保护,自动检测和管理故障,并自动同步元数据和业务数据。 提供图形化工具,简化管理员对数据库的管理
7 )高并发性)读写不互斥,支持数据加载查询,单节点并发能力超过300个用户;
8 )混合排队存储—通过提供混合排队存储方案,可以提高对列存储数据库中特殊查询场景的查询响应时间
9 )标准化:支持SQL92标准,支持C API、ODBC、JDBC、ADO.NET等接口规范。
8、 常见MPPDB
greenplum(EMC )是
辅助数据(teradata )。
nettezza(IBM )。
vertica (惠普)是
gbase 8a MPP集群(南大通用) ) ) ) ) )。
9、 MPPDB、Hadoop与传统数据库技术对比与适用场景
MPPDB和Hadoop都是将运算分散在节点上进行独立运算后,对结果进行综合(分散计算),但根据理论和采用的技术路线不同有各自的优缺点和适用范围。 两种技术与传统数据库技术的比较如下。
特征
Hadoop
MPPDB
传统数据仓库
开放平台
很贵
很低
很低
运输维度责任度
高
中
中
扩展能力
高
中
低
拥有成本
低
中
高
系统和数据管理成本
高
中
中
应用开发维护成本
高
中
中
SQL支持
中(低)
高
高
数据规模
PB级别
部分PB
TB级别
计算性能
对非关系型操作效率高
对关系型操作效率高
对关系型操作效率中
数据结构
机构化、半结构化和非机构化数据
结构化数据
结构化数据
综合而言,Hadoop和MPP两种技术的特定和适用场景为:
● Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。
● MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。
MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
由上述对比可预见未来大数据存储与处理趋势:MPPDB+Hadoop混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。