lambda架构组件,数据仓库总线结构优势

实时仓库： Lambda体系结构具有随着时间的推移，数据价值逐渐降低的场景。因此，基于传统的大数据离线数仓，对数据的实时性提出了更高的要求。

随之产生了大数据实时数仓，衍生出两种技术架构Lambda和Kappa。

在Lambda体系结构中，Lambda体系结构是一个古老的解决方案，它使用两种体系结构进行数据处理：流处理和批处理。其中，流处理部负责实时数据的处理，但由于流处理的数据可靠性不高，所以需要批处理部定期进行运算检查。

流处理作为临时视图存在，相当于满足数据的实时性的要求。正确的数据以批量计算为主。

在该架构中，分为Speed Layer、Batch Layer这两个流处理层，处理后的数据存储在Server Layer中。数据APP应用程序访问Server Layer以检索数据。

关于技术选型，这里以主要的技术选型为主，新数据一般会进入吞吐量大、实时性强的Kafka数据队列中。

批处理服务定期将数据提取到分布式文件系统HDFS中，并由分布式计算引擎Hive进行处理。处理的准确结果由Impala快速查询引擎提供服务。

实时处理服务从Kafka实时获取数据，传递给Flink、Spark Streaming等实时计算引擎进行实时处理。

处理结果存储在支持实时读写的数据库中，如HBase、Druid等。

在应用方面，离线和实时处理互补，实时处理可以快速获取最新数据，而对于准确的历史数据则提供离线处理。

应用场景这里有广告投放、智能停车两个典型的应用场景。

在广告投放场景中，用户的实时访问数据通过实时处理处理进行实时推荐，但推荐内容也需要考虑用户的历史访问记录，这些离线历史通过离线处理处理提供。

另一方面，智能停车通过实时系统实时分析进入停车场的车辆数据，但如果多辆车进入，系统可能会为多辆车提供相同的停车位，系统体验变差。但是，根据历史数据，根据拥挤程度和停车场停车位的使用率建立模型。这样，实时系统和离线系统结合起来可以得到更好的建议。

但Lmabda体系结构也存在明显不足，首先同时维护两个系统，资源占有率高，其次这两个系统的数据处理逻辑相同，代码重复开发。是否有体系结构只需维护一个系统，就可以同时完成流处理、批处理任务？当然，那就是Kappa体系结构。

如果后话有用，记得称赞，关注。公众号《数舟》免费提供专栏《数据仓库》的视频课程、集群自动安装脚本的大数据和群组通信方法。

我所有的大数据技术内容也将优先公开于公众号。如果对一些大数据技术感兴趣，但是没有足够的时间，群里提交的话，我会为大家安排共享。

公众号自取：

lambda架构 组件,数据仓库总线结构优势