首页 > 编程知识 正文

nosql四大类型的特点,hadoop生态系统包含哪些组件

时间:2023-05-05 18:45:38 阅读:57019 作者:4978

Hadoop的生态系统

* Hbase是一个可扩展的分布式数据库,支持大型表的结构化数据存储。 HBase是Apache的Hadoop项目的子项目。 HBase与常见的关系数据库不同,它是一个适用于非结构化数据存储的数据库。 另一个区别是,HBase是基于列的模式,而不是基于行的模式。

* Hive数据仓库基础架构。 提供数据聚合和临时查询,将结构化数据文件映射到数据库表,并提供简单的sql查询功能,以便将sql语句转换为MapReduce任务并执行。 Hive提供了与传统关系数据库的类SQL语言、Hive QL相似的结构化数据机制。 Hive QL使数据分析师能够轻松地执行数据分析工作。

* Spark Hadoop数据的快速通用计算引擎。 Spark提供了一个简单、有表现力的编程模型,可支持广泛的APP应用,包括ETL、机器学习、流处理和图形计算。

* ZooKeeper是针对分布式APP应用程序的高性能协调服务,是Hadoop和Hbase的重要组件。 它是一个为分布式APP应用程序提供一致服务的软件,提供配置维护、域名服务、分布式同步和组服务等功能。

* Sqoop (数据ETL/同步工具) Sqoop是SQL-to-Hadoop的缩写,主要用于在传统数据库和Hadoop之前传输数据。 数据导入和导出本质上是一个Mapreduce程序,利用了MR的并行化和容错。

*日志收集工具(* Flume ) Cloudera的开源日志收集系统具有分布式、高可靠性、高容错、易于定制和扩展的特点。 将生成、传输和处理数据并最终写入目标路径的过程抽象为数据流。 在特定数据流中,数据源支持在Flume中自定义数据源,并支持收集各种协议数据。 另一方面,Flume数据流提供了易于处理日志数据的功能,如过滤、格式转换等。

*分布式消息队列(Kafka ) Kafka是Linkedin于2010年12月开源的消息系统,主要用于处理活动的流数据。 这些数据包括网站的pv、用户访问了什么内容以及搜索了什么内容等。 这些数据通常记录为日志,每隔一定时间进行统计处理。

* Ambari是一个基于Web的工具,用于提供、管理和监视Apache Hadoop群集。 Ambari目前支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog。 Ambari还提供了用于显示群集健康状况的控制板,包括热图、MapReduce、Pig和hive APP应用程序的可视显示功能,以及诊断性能特性以方便用户使用的功能。

* Avro数据序列化系统。 数据结构或对象可以转换为易于存储和传输的格式,旨在支持适合存储和交换大数据的数据密集型APP应用程序。 Avro提供了丰富的数据结构类型、快速、可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单的动态语言集成等功能。

* Cassandra可扩展的多主数据库。 没有单点故障。 是一个开源分布式NoSQL数据库系统。

* Chukwa是一个管理大型分布式系统的数据收集系统(2000多个节点,系统每天生成的监控数据量为t级)。 它基于Hadoop的HDFS和MapReduce构建,继承了Hadoop的可扩展性和鲁棒性。 Chukwa包含一组强大、灵活的工具,可提供一系列功能,如数据生成、收集、排序、重新定位、分析和显示,是Hadoop用户、群集操作人员和管理员的必备工具。

* Mahout Apache的开源项目,可扩展的机器学习和数据挖掘库

*用于pig并行计算的高级数据流语言和执行框架。 它简化了使用Hadoop进行数据分析的要求,并提供了名为Pig Latin的高级面向域的抽象语言。

* Tez是一个基于Hadoop YARN的通用数据流编程框架,它提供了强大而灵活的引擎,可以执行任意DAG任务来处理批处理和交互用例数据。 Hado生态系统中的Hive、pig和其他框架以及其他业务软件(如ETL工具)被用作基于Tez的执行引擎,而不是HadoopMapReduce。 *集成到工作流调度器(* Oozie ) Hadoop堆栈中的可扩展工作体系,用于协调多个MapReduce作业的执行。 可以管理基于外部事件(包括数据计时和出现)运行的复杂系统。

* pig (ad hoc脚本)是雅虎! 开源、设计动机是提供基于MapReduce的自组织(ad hoc ) (计算发生在查询时)数据分析工具,通常用于离线分析。 它定义了一种名为Pig Latin的数据流语言,它抽象了MapReduce编程的复杂性。 Pig平台包含用于分析运行时环境和Hadoop数据集的脚本语言(Pig Latin )。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。