什么是文章目录MPP? SMP-symmetric多处理器对称多处理器结构NUMA -Non-Uniform Memory Access非一致性存储访问结构MPP -Massive-Parallel Processing大容量并行处理othing典型的mppdbgreenplumteradataimpalaprestoelasticsearchverticampp架构应用场景搜索架构查询服务
学习笔记:大数据体系结构详细信息:从数据检索到深度学习
MPP是什么样的系统架构级服务器分类,有以下三种: SMP-symmetric多处理器对称多处理器结构的特点
统一内存访问
共享存储: cpu、内存和I/o不足
可扩展性有限
内存总线限制内存访问的效率NUMA -Non-Uniform Memory Access非一致性存储访问结构特征
具有多个CPU模块,每个模块由多个CPU构成,具有独立的本地存储器、io插槽
节点之间通过互联模块进行连接和信息交换: 同一台物理服务器内部实现,cpu异地访问时必须等待
SMP系统扩展问题的解决
互连模块的访问效率和本地内存访问不是一个效率级别,系统的性能与cpu数和线性添加MPP -Massive-Parallel Processing大容量并行处理体系结构的其他系统扩展方法不同
特征SMP组合方式:各SMP服务器(节点)通过节点互联网络连接。节点互联网络:MPP内部使用,对用户透明,在不同SMP服务器外部通过IO实现,每个节点只访问本地内存和存储,节点信息交换和节点本身并行处理每个节点只访问本地资源(内存、存储)和Share Nothing结构。 对等节点:所有数据节点的作用相同。 可以提高并行计算能力的聚合节点。 数据聚合节点的稳定性、可用性会影响整体性能,并不是调度和平衡每个节点负载和并行处理过程的复杂机制。 短板效应。
如果一个节点运行得总是慢于集群中的其它节点,则集群的整体性能受限于故障节点的运行速度(所谓的木桶效应),并且在集群中有多少节点也不会提高。
当MPP系统中某个节点的RAID由于磁盘问题而导致性能下降,或者由于硬件或系统问题而导致CPU性能下降时,会发生此类问题。 所有MPP系统都面临这样的问题。 MPP群集的规模不能太大。 并发性不能太高。 数据查询聚合节点的并发查询数限制为10位,用户数有限。 MPP db- share磁盘使用独立的cpu、内存、共享硬盘系统,没有数据同步问题,存在存储瓶颈问题
OracleRac
-共享通告的水平可扩展性、元数据同步和故障恢复问题
典型的MPP DB了解MPP的体系结构特点,看看几个典型的产品,会不会觉得大同小异、豁然开朗?
Greenplum PostgreSQL基础,MPP体系结构
关系型分布式数据仓库
Hadoop生态,--”与HAWQ兼容,存储层迁移到HDFS。
体系结构
大规模存储
混列区块、表格分割区:资料平行处理至每个区段主机支援索引
B-树
位图
虽然还不知道Hash Teradata,但是原理的详细情况和使用方法的介绍参考了这篇sfdxtz的文章
Impala
Presto Distributed SQL Query Engine for Big Data
官方文档
presto目标定位
prestoisatooldesignedtoefficientlyqueryvastamountsofdatausing 3358 www.Sina.com/. ifyouworkwithterabytesorpetabytesofdata youarelikelyusingtoolsthatinteractwithhadoopandhdfs.prestowasdesignedasanalternaternativivs ipelinesofmapring duce jobs such as hive or pig, butprestoisnotlimitedtoaccessinghdfs.prestocanbeandhasbeenextendedtooperateoverdifferentkindsofdatasourcesincludingtraditiontions
prestowasdesignedto http://www.Sina.com/:数据分析,aggregatinglargeamountsofdataandproducingreports.these workloaand
presto组件
使用presto
presto和Impala的区别
电子搜索
es版本发生了快速更改,在与java spring系统集成时生成了多个第三方组件库。
一个高效的方案是参考bboss
Vertica Vertica采用非共享的MPP体系结构,基于行业标准的x86服务器,具有很高的可扩展性。
Vertica群集中的所有节点100%对等,群集中没有主节点或其他共享资源。 详情见百度百科介绍
应用MPP架构场景搜索架构查询服务客户端节点、数据聚合节点(协调节点)、并行计算节点。
协调节点也是集群中任意同类的计算节点,其性能、稳定性、可用性决定着集群的整体表现。
MPP与Batch优缺点的比较