数据库架构,数据建模到底是什么

大数据通常是指每天不断增长的庞大数据集。例如，Facebook的用户数量与日俱增，随着浏览Facebook的用户数量的增加，每个用户的数据也在增加。

这样的数据可以是结构化的，也可以不是结构化的。因为数据很大，所以复杂性和速度也很大。也就是说，它既快速又复杂。因此，大数据用体积、多样性、速度3V表示。

大数据有助于分析数据并执行各种操作，以优化成本和时间。将这些大数据与强大的框架相结合，可以更轻松地实时找到正确的(解决方案)问题和问题。

forenglishtranslationblog-bigdataframeworks

顶级大数据框架

1. HadoopHadoop是一个基于Java的开源大数据框架，提供批处理和数据存储服务。它有一个庞大的体系结构，由许多层组成，包括用于数据处理的HDFS和YARN。

2.Apache Spark

Spark是一个具有增强数据流处理的批处理框架。促进内存计算，实现同样的超高速化。大数据框架与Hadoop集成，可以作为独立的集群工具使用。

3.MapReduce

MapReduce是一个大数据搜索引擎，是Hadoop框架的一部分。最初，它是一种并行处理大量数据的算法。现在，不仅如此，我们还分三个阶段工作。

mapshufflereduce 3358 www.Sina.com /

Facebook将Apache Hive设计为ETL和数据仓库工具。构建在Hadoop生态系统的HDFS平台之上。 Hive由客户端、服务、存储和计算三个组件组成。

Apache Hive包含用于查询的声明性语言HiveQL，非常适合于数据密集型任务。 JP Morgan、Facebook、Accenture、PayPal等公司都使用Hive。

5.Flink Flink基于Kappa架构，是一个开源单流处理引擎。它将输入视为流，并具有流引擎实时处理数据的处理器。批处理是流处理的特例。

6.SamzaSamza允许您构建有状态的APP应用程序，以处理来自各种源的实时数据。目的是解决批处理延迟(大周转时间)的问题。

7.Storm Storm处理巨大的实时数据流。旨在应对低延迟，具备高扩展性。 Storm可以在停机后更快地恢复。是Twitter最初的大数据框架，之后也被雅虎、Yelp、阿里巴巴等巨头采用。

8.Impala在C和Java中，Impala是开源的大规模并行处理查询引擎，可以在单个Hadoop集群中处理大量数据。

就像Hive有自己的查询语言一样，它也有Impala！低延迟和高性能，在性能和可用性方面提供接近RDBMS的体验。 Impala兼具SQL等查询语言的性能和支持、Hadoop的灵活性和可扩展性两个优点。

4.Apache Hive

这样，我们的十大数据框架列表就完成了。但是，虽然本文没有介绍，但是需要提到的大数据框架还有很多。

苍鹭、苦杜、精炼、开胶、Cloudera、五角星