kafka概念,kafka和hadoop区别

前言隶属于专栏《1000个问题搞定大数据技术体系》。这个专栏是笔者原创的。引用请注明来源。不足和错误请在评论区指出。谢谢你。

本专栏的目录结构和参考文献请参考1000个解决问题的大数据技术体系

正文

Kafka诞生背景2011年初，美英公司(Linkedin )开源了以奥地利作家弗朗茨卡夫卡(Franz Kafka )名字命名的基础架构软件。

此后，Linkedin为Apache基金会做出了贡献，并于2012年10月成功孵化，顺利晋升为Apache的顶级项目。这是有名的Apache Kafka。

什么是Kafka？ Apache Kafka是由Apache软件基金会基于Scala和Java语言开发的开源流数据处理平台。

该项目旨在为处理实时数据提供统一、高吞吐量、低延迟的平台。

其数据存储层基本上是“基于分布式事务日志体系结构实现的大型、可扩展的发布/订阅消息队列”，对企业的流数据处理基础架构具有非常高的价值。

总之，Kafka是开源领域知名度最高的分布式消息引擎系统，如果贵公司需要实时高效传输大量数据，那么选择Kafka是正确的，而不用大脑。