首页 > 编程知识 正文

LAMP架构,lambda架构已死

时间:2023-05-06 08:00:46 阅读:13442 作者:4761

下一个知识点是摘自b站“课长工厂优越实训中心”的文章《三张图讲清楚大数据基础设施》

文章的链接是https://www.bilibili.com/read/cv 8768704? share _ source=copy _ linkshare _ medium=iphonebbid=z74 e 607 fa 37 e3c 304 e 68 b 048 b0e 9982 ca a2 ATS=16111108435

lambda体系结构:

结构:

1 .服务层

主要是用户要求,希望根据用户需求收集Batch层和Speed层的数据,得到最终的数据集。

2 .速度层

主要处理实时增量数据,每次数据到来时不断更新View层提供业务

3.BatchLayer

主要处理离线数据,对介入的数据进行预处理和存储,查询时直接用预处理结果查询不需要进行完整的计算,最后在视图层提供给业务;

好处:

1 .将流程处理和批处理分开,很好地结合了实时计算和流程计算的优点,结构稳定,实时计算成本可控,提高了整个系统的容错能力,降低了复杂性。

缺点:

离线数据和实时数据很难保证数据的一致性,开发人员需要维护两个系统。

kappa架构基于Lambda架构删除了Batch层,所有数据都是流处理实时计算,计算后可直接用于业务层。 也可以放在数据湖中,用于需要离线分析的情况。

好处:

开发人员只需维护实时处理模块,不需要离线实时数据集成。

缺点:

实时处理时可能会丢失信息。

《Flink x Zeppelin ,Hive Streaming 实战解析》—摘自flink中文社区

事实上,在大数据领域,有Lambda和Kappa两种体系结构。

Lambda架构——流被批量分离,静态数据通过定时调度同步到Hive数仓,并且实时数据与Hive和实时计算引擎同步消耗,这有点问题。

1 .数据口径问题

2 .离线计算生产延迟太大

3 .数据冗馀

Kappa架构——全部采用实时计算来生产数据,历史数据由于回溯消息的消费站点计算,同样存在很多问题,毕竟没有一个辛苦的架构。

1 .消息中间件无法保存所有历史数据,同一数据是线存储的,占用空间太大

2 .无力通过实时计算计算历史数据

3 .不能进行即席分析

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。