大数据区域根据计算引擎和存储引擎,可以如图所示进行分类。
(1)点击大厅
Clickhouse是一个很牛的工具,追求毫秒级的响应,这也与Yandex (俄罗斯最大的搜索公司,CK的开源者) )的应用场景有关。
当然,CK的问题是受限于独立的物理内存,如果query的mem消耗量过多,就会被kill。
编程语言: c
2 ) Palo ) dtdFJ )是指
这个项目已经被百度Palo团队贡献给了Apache,改名为dtdfj。
随着开源化,dtdfj已经在京东、美团、搜狐、小米等公司的生产环境中正式使用,越来越多的Contributor加入了dtdfj大家庭。
编程语言:存储引擎Mesa ) Java )计算引擎Impala ) )。
(3)绿色计划
Greenplum是早期Hadoop生态圈竞争的领导者,也是MPP框架的早期实践者。
GP是老字号的大数据工具,诞生于1996年。 数仓特性丰富成熟稳定,在传统企业中得到了非常广泛的使用。 另外,GPDB这两年正在转型为一个数据平台,社区和生态也非常强大,各方面均衡。 缺点是技术框架相对陈旧,TP性能欠佳。
编程语言: c
4 ) Druid
Druid是提供有效数据查询的分布式列式数据存储库。 Druid主要解决了对大量基于时间序列的数据进行聚合查询,组合了OLAP、时间序列数据库、检索系统等多方面的特性。
Druid在国外的应用很多,特别是在大规模流量分析的场合。 Druid的速度也基于自己的部分预聚合能力。
编程语言: Java