首页 > 编程知识 正文

lambda架构 组件,数据仓库总线结构优势

时间:2023-05-05 00:36:34 阅读:13477 作者:2714

实时仓库: Lambda体系结构具有随着时间的推移,数据价值逐渐降低的场景。 因此,基于传统的大数据离线数仓,对数据的实时性提出了更高的要求。

随之产生了大数据实时数仓,衍生出两种技术架构Lambda和Kappa。

在Lambda体系结构中,Lambda体系结构是一个古老的解决方案,它使用两种体系结构进行数据处理:流处理和批处理。 其中,流处理部负责实时数据的处理,但由于流处理的数据可靠性不高,所以需要批处理部定期进行运算检查。

流处理作为临时视图存在,相当于满足数据的实时性的要求。 正确的数据以批量计算为主。

在该架构中,分为Speed Layer、Batch Layer这两个流处理层,处理后的数据存储在Server Layer中。 数据APP应用程序访问Server Layer以检索数据。

关于技术选型,这里以主要的技术选型为主,新数据一般会进入吞吐量大、实时性强的Kafka数据队列中。

批处理服务定期将数据提取到分布式文件系统HDFS中,并由分布式计算引擎Hive进行处理。 处理的准确结果由Impala快速查询引擎提供服务。

实时处理服务从Kafka实时获取数据,传递给Flink、Spark Streaming等实时计算引擎进行实时处理。

处理结果存储在支持实时读写的数据库中,如HBase、Druid等。

在应用方面,离线和实时处理互补,实时处理可以快速获取最新数据,而对于准确的历史数据则提供离线处理。

应用场景这里有广告投放、智能停车两个典型的应用场景

在广告投放场景中,用户的实时访问数据通过实时处理处理进行实时推荐,但推荐内容也需要考虑用户的历史访问记录,这些离线历史通过离线处理处理提供。

另一方面,智能停车通过实时系统实时分析进入停车场的车辆数据,但如果多辆车进入,系统可能会为多辆车提供相同的停车位,系统体验变差。 但是,根据历史数据,根据拥挤程度和停车场停车位的使用率建立模型。 这样,实时系统和离线系统结合起来可以得到更好的建议。

但Lmabda体系结构也存在明显不足,首先同时维护两个系统,资源占有率高,其次这两个系统的数据处理逻辑相同,代码重复开发。 是否有体系结构只需维护一个系统,就可以同时完成流处理、批处理任务? 当然,那就是Kappa体系结构。

如果后话有用,记得称赞,关注。 公众号《数舟》免费提供专栏《数据仓库》的视频课程、集群自动安装脚本的大数据和群组通信方法。

我所有的大数据技术内容也将优先公开于公众号。 如果对一些大数据技术感兴趣,但是没有足够的时间,群里提交的话,我会为大家安排共享。

公众号自取:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。