数据挖掘的应用领域(大数据分析关键技术研究)

大数据区域根据计算引擎和存储引擎，可以如图所示进行分类。

(1)点击大厅

Clickhouse是一个很牛的工具，追求毫秒级的响应，这也与Yandex (俄罗斯最大的搜索公司，CK的开源者) )的应用场景有关。

当然，CK的问题是受限于独立的物理内存，如果query的mem消耗量过多，就会被kill。

编程语言： c

2 ) Palo ) dtdFJ )是指

这个项目已经被百度Palo团队贡献给了Apache，改名为dtdfj。

随着开源化，dtdfj已经在京东、美团、搜狐、小米等公司的生产环境中正式使用，越来越多的Contributor加入了dtdfj大家庭。

编程语言：存储引擎Mesa ) Java )计算引擎Impala ) )。

(3)绿色计划

Greenplum是早期Hadoop生态圈竞争的领导者，也是MPP框架的早期实践者。

GP是老字号的大数据工具，诞生于1996年。数仓特性丰富成熟稳定，在传统企业中得到了非常广泛的使用。另外，GPDB这两年正在转型为一个数据平台，社区和生态也非常强大，各方面均衡。缺点是技术框架相对陈旧，TP性能欠佳。

编程语言： c

4 ) Druid

Druid是提供有效数据查询的分布式列式数据存储库。 Druid主要解决了对大量基于时间序列的数据进行聚合查询，组合了OLAP、时间序列数据库、检索系统等多方面的特性。

Druid在国外的应用很多，特别是在大规模流量分析的场合。 Druid的速度也基于自己的部分预聚合能力。

编程语言： Java