首页 > 编程知识 正文

数据库架构,数据建模到底是什么

时间:2023-05-03 21:28:30 阅读:165581 作者:3540

大数据通常是指每天不断增长的庞大数据集。 例如,Facebook的用户数量与日俱增,随着浏览Facebook的用户数量的增加,每个用户的数据也在增加。

这样的数据可以是结构化的,也可以不是结构化的。 因为数据很大,所以复杂性和速度也很大。 也就是说,它既快速又复杂。 因此,大数据用体积、多样性、速度3V表示。

大数据有助于分析数据并执行各种操作,以优化成本和时间。 将这些大数据与强大的框架相结合,可以更轻松地实时找到正确的(解决方案)问题和问题。

forenglishtranslationblog-bigdataframeworks

顶级大数据框架

1. HadoopHadoop是一个基于Java的开源大数据框架,提供批处理和数据存储服务。 它有一个庞大的体系结构,由许多层组成,包括用于数据处理的HDFS和YARN。

2.Apache Spark

Spark是一个具有增强数据流处理的批处理框架。 促进内存计算,实现同样的超高速化。 大数据框架与Hadoop集成,可以作为独立的集群工具使用。

3.MapReduce

MapReduce是一个大数据搜索引擎,是Hadoop框架的一部分。 最初,它是一种并行处理大量数据的算法。 现在,不仅如此,我们还分三个阶段工作。

mapshufflereduce 3358 www.Sina.com /

Facebook将Apache Hive设计为ETL和数据仓库工具。 构建在Hadoop生态系统的HDFS平台之上。 Hive由客户端、服务、存储和计算三个组件组成。

Apache Hive包含用于查询的声明性语言HiveQL,非常适合于数据密集型任务。 JP Morgan、Facebook、Accenture、PayPal等公司都使用Hive。

5.Flink Flink基于Kappa架构,是一个开源单流处理引擎。 它将输入视为流,并具有流引擎实时处理数据的处理器。 批处理是流处理的特例。

6.SamzaSamza允许您构建有状态的APP应用程序,以处理来自各种源的实时数据。 目的是解决批处理延迟(大周转时间)的问题。

7.Storm Storm处理巨大的实时数据流。 旨在应对低延迟,具备高扩展性。 Storm可以在停机后更快地恢复。 是Twitter最初的大数据框架,之后也被雅虎、Yelp、阿里巴巴等巨头采用。

8.Impala在C和Java中,Impala是开源的大规模并行处理查询引擎,可以在单个Hadoop集群中处理大量数据。

就像Hive有自己的查询语言一样,它也有Impala! 低延迟和高性能,在性能和可用性方面提供接近RDBMS的体验。 Impala兼具SQL等查询语言的性能和支持、Hadoop的灵活性和可扩展性两个优点。

4.Apache Hive

这样,我们的十大数据框架列表就完成了。 但是,虽然本文没有介绍,但是需要提到的大数据框架还有很多。

苍鹭、苦杜、精炼、开胶、Cloudera、五角星

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。