常见mpp数据库,mpp数据库有哪些开源的

MPP数据库初识先了解下OLTP与OLAP区别为什么需要MPP数据库？MPP数据库应用领域什么是MPP？MPP架构特征MPPDB架构什么是MPP数据库？MPP数据库的使用场景？MPPDB、Hadoop与传统数据库技术对比与适用场景

先了解下OLTP与OLAP区别

OLTP(OnLine Transaction Processing ，联机事务处理)系统
例如mysql。擅长事务处理，在数据操作中保持着很强的一致性和原子性，能够很好的支持频繁的数据插入和修改，但是，一旦数据量过大，OLTP便力不从心了。

OLAP(On-Line Analytical Processing，联机分析处理)系统
例如Greenplum。不特别关心对数据进行输入、修改等事务性处理，而是关心对已有的大量数据进行多维度的、复杂的分析的一类数据系统。

为什么需要MPP数据库？

1 海量数据的分析需求

传统数据库无法支持大规模集群与PB级别数据量

单台机器性能受限、成本高昂，扩展性受限

2 支持复杂的结构化查询（这里是重点）

复杂查询经常使用多表联结、全表扫描等，牵涉的数据量往往十分庞大；支持复杂sql查询和支持大数据规模；

3 Hadoop技术的先天不足

Hive等sql-on-hadoop性能太慢，分析场景不一样，SQL兼容性与支持不足

MPP数据库应用领域

大数据分析：MPP数据库做大数据计算或分析平台非常适合，例如:数据仓库系统、历史数据管理系统、数据集市等。

有很强的并行数据计算能力和海量数据存储能力，但是他不擅长高频的小规模数据插入、修改、删除，每次事务处理的数据量不大。这类数据衡量指标是TPS，适用的系统是OLTP数据库。

所以，报表统计分析、运维统计数据，快速生成报表展示都可以使用mpp数据库。
符合几个条件：不需要更新数据，不需要频繁重复离线计算，不需要并发大。

有上百亿以上离线数据，不更新，结构化，需要各种复杂分析的sql语句，那就可以选择他。几秒、几十秒立即返回你想要的分析结果。例如sum，count，group by，order，好几层查询嵌套，在几百亿数据里分分钟出结果
这类的数据库有，clickhouse，greenplum

什么是MPP？

MPP (Massively Parallel Processing)，即大规模并行处理。简单来说，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。

MPP架构特征

任务并行执行;
数据分布式存储(本地化);
分布式计算;
私有资源;
横向扩展;
Shared Nothing架构。

MPPDB架构

MPP 采用完全并行的MPP + Shared Nothing 的分布式扁平架构，这种架构中的每一个节点（node）都是独立的、自给的、节点之间对等，而且整个系统中不存在单点瓶颈，具有非常强的扩展性。

什么是MPP数据库？

MPP数据库是一款 Shared Nothing架构的分布式并行结构化数据库集群，具备高性能、高可用、高扩展特性，可以为超大规模数据管理提供高性价比的通用计算平台，并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统

MPP数据库的使用场景？

MPP数据库有对SQL的完整兼容和一些事务的处理能力，对于用户来说，在实际的使用场景中，如果数据扩展需求不是特别大，需要的处理节点不多，数据都是结构化的数据，习惯使用传统的RDBMS的很多特性的场景，可以考虑MPP,例如Greenplum/Gbase等。

MPPDB、Hadoop与传统数据库技术对比与适用场景

MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算)，但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。两种技术以及传统数据库技术的对比如下：

综合而言，Hadoop和MPP两种技术的特定和适用场景为：

Hadoop在处理非结构化和半结构化数据上具备优势，尤其适合海量数据批处理等应用要求。
MPP适合替代现有关系数据机构下的大数据处理，具有较高的效率。
MPP适合多维度数据自助分析、数据集市等；Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
常用的MPP数据库有哪些
GreenPlum
Vertica
Sybase IQ
TD Aster Data
一般来说，我们都会更倾向于GreenPlum，而且阿里的云数据库HybirdDB也是基于GreenPlum的开源项目。

由上述对比可预见未来大数据存储与处理趋势：MPPDB+Hadoop混搭使用，用MPP处理PB级别的、高质量的结构化数据，同时为应用提供丰富的SQL和事物支持能力；用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。