大数据通常是指每天不断增长的庞大数据集。 例如,Facebook的用户数量与日俱增,随着浏览Facebook的用户数量的增加,每个用户的数据也在增加。
这样的数据可以是结构化的,也可以不是结构化的。 因为数据很大,所以复杂性和速度也很大。 也就是说,它既快速又复杂。 因此,大数据用体积、多样性、速度3V表示。
大数据有助于分析数据并执行各种操作,以优化成本和时间。 将这些大数据与强大的框架相结合,可以更轻松地实时找到正确的(解决方案)问题和问题。
forenglishtranslationblog-bigdataframeworks
顶级大数据框架
1. HadoopHadoop是一个基于Java的开源大数据框架,提供批处理和数据存储服务。 它有一个庞大的体系结构,由许多层组成,包括用于数据处理的HDFS和YARN。
2.Apache Spark
Spark是一个具有增强数据流处理的批处理框架。 促进内存计算,实现同样的超高速化。 大数据框架与Hadoop集成,可以作为独立的集群工具使用。
3.MapReduce
MapReduce是一个大数据搜索引擎,是Hadoop框架的一部分。 最初,它是一种并行处理大量数据的算法。 现在,不仅如此,我们还分三个阶段工作。
mapshufflereduce 3358 www.Sina.com /
Facebook将Apache Hive设计为ETL和数据仓库工具。 构建在Hadoop生态系统的HDFS平台之上。 Hive由客户端、服务、存储和计算三个组件组成。
Apache Hive包含用于查询的声明性语言HiveQL,非常适合于数据密集型任务。 JP Morgan、Facebook、Accenture、PayPal等公司都使用Hive。
5.Flink Flink基于Kappa架构,是一个开源单流处理引擎。 它将输入视为流,并具有流引擎实时处理数据的处理器。 批处理是流处理的特例。
6.SamzaSamza允许您构建有状态的APP应用程序,以处理来自各种源的实时数据。 目的是解决批处理延迟(大周转时间)的问题。
7.Storm Storm处理巨大的实时数据流。 旨在应对低延迟,具备高扩展性。 Storm可以在停机后更快地恢复。 是Twitter最初的大数据框架,之后也被雅虎、Yelp、阿里巴巴等巨头采用。
8.Impala在C和Java中,Impala是开源的大规模并行处理查询引擎,可以在单个Hadoop集群中处理大量数据。
就像Hive有自己的查询语言一样,它也有Impala! 低延迟和高性能,在性能和可用性方面提供接近RDBMS的体验。 Impala兼具SQL等查询语言的性能和支持、Hadoop的灵活性和可扩展性两个优点。
4.Apache Hive
这样,我们的十大数据框架列表就完成了。 但是,虽然本文没有介绍,但是需要提到的大数据框架还有很多。
苍鹭、苦杜、精炼、开胶、Cloudera、五角星