首页 > 编程知识 正文

免费大数据工具有哪些,大数据etl工具有哪些

时间:2023-05-04 07:33:39 阅读:53880 作者:4156

作为大数据开发者,每天都要使用大量的大数据工具来完成日常工作,那么现在主流的大数据开发工具是什么呢?

介绍主要的大数据开发工具。

1. Hadoop

Hadoop是由Apachefoundation开发的分布式系统基础架构。

用户可以在不知道分布式基础细节的情况下开发分布式程序。 充分利用集群的威力进行高速运算和存储。

Hadoop是一个可以分布式处理大量数据的软件框架。 Hadoop以可靠、高效、可扩展的方式处理数据。

hadoop官方网站地址: http://hadoop.apache.org/

hadoop开发文档: http://Hadoop.Apache.org/docs/r1.0.4/cn /

hadoop入门教程: http://Hadoop.Apache.org/docs/r1.0.4/cn/quick start.html

2. Ambari

Apache Ambari是一个基于Web的工具,用于支持Apache Hadoop群集的供应、管理和监视。 Ambari支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog。

Ambari官方网站地址: http://ambari.apache.org/

3. Avro

avro([? vr? ]是Hadoop的子项目,由Hadoop的创始人Doug cutting (也是Lucene、Nutch等项目的创始人)主导开发。 Avro是一个数据序列化系统,专为支持大量数据交换的APP应用程序而设计。 其主要特点是支持二进制序列化方式,方便快捷地处理大量数据。 动态语言易于使用,Avro提供的机制使动态语言能够轻松处理Avro数据。

Avro官方网站地址: http://avro.apache.org/

Avro英文文档: http://avro.Apache.org/docs/current /

4 .案例分析

使用构建在Hadoop上的API创建复杂、容错的数据处理工作流。 抽象集群拓扑和配置,快速开发复杂、分布式的APP应用程序,而不管背后的映射是什么。

Cascading官方网站地址: http://www.cascading.org/

5. Chukwa

chukwa是用于监测开源大规模分布式系统的数据收集系统。 它构建在hadoop的hdfs和map/reduce框架之上,继承了hadoop的可伸缩性和健壮性。 Chukwa还包括一组强大、灵活的工具,用于查看、监视和分析收集的数据。

Chukwa官方网站地址: http://chukwa.apache.org/

6. Flume

Flume是Cloudera提供的高可用性、高可靠性、分布式大容量日志收集、聚合和传输系统,Flume支持在日志系统中定制不同类型的数据源进行数据收集; Flume还提供了轻松处理数据并将其写入各种数据收件人(可定制)的能力。

Flume官方网站地址: http://flume.apache.org/

Flume相关文档: http://flume.Apache.org/flumedeveloperguide.html

7. HBase

hbaseHadoop数据库是一个高可靠性、高性能、面向列、可扩展的分布式存储系统,使您能够利用h base技术在廉价的PC服务器上构建大型结构化存储群集。

HBase官网链接: https://hbase.apache.org/

HBase相关文档: http://h base.Apache.org/book.html

8. Hadoop分布式文件系统(HDFS )。

HDFS是一个容错系统,适合部署在廉价机器上。 HDFS提供高吞吐量的数据访问,非常适合在大型数据集上进行APP应用。 HDFS缓解了部分POSIX限制,允许文件系统数据的流式读取。 HDFS最初是作为Apache Nutch搜索引擎项目的基础架构开发的。 HDFS是Apache Hadoop Core项目的一部分。

HDFS开发文档: http://Hadoop.Apache.org/docs/r1.0.4/cn/HDFS _ design.html

9. Hive

hive是一个基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务并执行的简单sql查询功能。 优点是学习费用低,可以在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce APP应用程序,完全适用于数据仓库的统计分析。

Hive官方网站地址: https://hive.apache.org/

10. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和害羞的心情。

支持的操作系统:与操作系统无关。

Hivemall官网链接:https://github.com/myui/hivemall

11. Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout官网地址:http://mahout.apache.org/

12. MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

MapReduce相关文档:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

13. Oozie

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

● 工作流定义

● 当前运行的工作流实例,包括实例的状态和变量

Oozie官网地址:http://oozie.apache.org/

14. Pig

Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

Pig官网地址:http://pig.apache.org/

15. Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Sqoop官网地址:http://sqoop.apache.org/

Sqoop相关文档:http://sqoop.apache.org/docs/1.4.5/index.html

16. Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark官网地址:http://spark.apache.org/

17. Tez

Tez建立在Apache Hadoop YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。

支持的操作系统:Windows、Linux和OS X。

Tez官网链接:http://tez.apache.org

18. Zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

Zookeeper官网:http://zookeeper.apache.org/

以上就是对大数据开发工具的介绍,想要了解更多的大数据信息,可以去光环大数据官网(hadoop.aura.cn)了解。

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。