filebeat flume对比,kafka工作原理

1 ) kafka和flume都是日志系统。 kafka是分布式消息中间件，具有存储，并提供推送和推送数据访问功能。流被分为代理数据收集器[源通道同步]。

)2) kafka应该更适合做日志缓存，但是flume的数据采集部分做得很好，可以定制很多数据源，减少开发量。因此，flume kafka模式很流行。为了利用利用flume写hdfs的能力，也可以采用kafka flume方式。

采集层主要可用Flume、Kafka两种技术。

Flume:Flume是一种管道流方式，提供了很多默认实现，用户可以通过参数进行部署，扩展API。

Kafka:Kafka是一个可持续的分布式消息队列。

Kafka是一个非常通用的系统。很多生产者和很多消费者可以共享多个主题Topics。相反，Flume是一个专门为将数据发送到HDFS，HBase而设计的工具。 HDFS有特殊的优化，集成了Hadoop的安全功能。所以，如果数据在多个系统上消耗，Cloudera建议使用kafka；如果数据设计为与Hadoop一起使用，请使用Flume。

如您所知，Flume内置了许多source和sink组件。 Kafka显然有一个很小的生产消费者生态系统，使用Kafka意味着准备好制作自己的生产者和消费者代码。如果已经存在的Flume Sources和Sinks满足需要，并且喜欢不需要开发的系统，请使用Flume。

Flume可以使用拦截器实时处理数据。这些有助于屏蔽数据和过量摄取。 Kafka需要外部的流处理系统。

Kafka和Flume都是可靠的系统，通过正确的配置确保零数据丢失。但是，Flume不支持复制事件。因此，如果Flume代理的节点崩溃，这些事件将在恢复磁盘之前丢失，即使使用受信任的文件管道方法也是如此。如果需要可靠的管线，建议使用Kafka。

Flume和Kafka可以很好地组合使用。如果您的设计需要从Kafka到Hadoop的流数据，也可以使用Flume代理配置Kafka的Source来读取数据。你不需要实现自己的消费者。直接利用Flume、HDFS和HBase组合的所有好处。您还可以使用Cloudera Manager监视消费者，并添加拦截器进行流式传输。

Flume和Kafka可以组合使用。通常使用Flume Kafka的方式。其实为了利用Flume现有的HDFS刻录功能，也可以使用Kafka Flume方式。