LAMP架构,lambda架构已死

下一个知识点是摘自b站“课长工厂优越实训中心”的文章《三张图讲清楚大数据基础设施》

文章的链接是https://www.bilibili.com/read/cv 8768704？ share _ source=copy _ linkshare _ medium=iphonebbid=z74 e 607 fa 37 e3c 304 e 68 b 048 b0e 9982 ca a2 ATS=16111108435

lambda体系结构：

结构：

1 .服务层

主要是用户要求，希望根据用户需求收集Batch层和Speed层的数据，得到最终的数据集。

2 .速度层

主要处理实时增量数据，每次数据到来时不断更新View层提供业务

3.BatchLayer

主要处理离线数据，对介入的数据进行预处理和存储，查询时直接用预处理结果查询不需要进行完整的计算，最后在视图层提供给业务；

好处：

1 .将流程处理和批处理分开，很好地结合了实时计算和流程计算的优点，结构稳定，实时计算成本可控，提高了整个系统的容错能力，降低了复杂性。

缺点：

离线数据和实时数据很难保证数据的一致性，开发人员需要维护两个系统。

kappa架构基于Lambda架构删除了Batch层，所有数据都是流处理实时计算，计算后可直接用于业务层。也可以放在数据湖中，用于需要离线分析的情况。

好处：

开发人员只需维护实时处理模块，不需要离线实时数据集成。

缺点：

实时处理时可能会丢失信息。

《Flink x Zeppelin ，Hive Streaming 实战解析》—摘自flink中文社区

事实上，在大数据领域，有Lambda和Kappa两种体系结构。

Lambda架构——流被批量分离，静态数据通过定时调度同步到Hive数仓，并且实时数据与Hive和实时计算引擎同步消耗，这有点问题。

1 .数据口径问题

2 .离线计算生产延迟太大

3 .数据冗馀

Kappa架构——全部采用实时计算来生产数据，历史数据由于回溯消息的消费站点计算，同样存在很多问题，毕竟没有一个辛苦的架构。

1 .消息中间件无法保存所有历史数据，同一数据是线存储的，占用空间太大

2 .无力通过实时计算计算历史数据

3 .不能进行即席分析