免费大数据工具有哪些,大数据etl工具有哪些

作为大数据开发者，每天都要使用大量的大数据工具来完成日常工作，那么现在主流的大数据开发工具是什么呢？

介绍主要的大数据开发工具。

1. Hadoop

Hadoop是由Apachefoundation开发的分布式系统基础架构。

用户可以在不知道分布式基础细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop是一个可以分布式处理大量数据的软件框架。 Hadoop以可靠、高效、可扩展的方式处理数据。

hadoop官方网站地址： http://hadoop.apache.org/

hadoop开发文档： http://Hadoop.Apache.org/docs/r1.0.4/cn /

hadoop入门教程： http://Hadoop.Apache.org/docs/r1.0.4/cn/quick start.html

2. Ambari

Apache Ambari是一个基于Web的工具，用于支持Apache Hadoop群集的供应、管理和监视。 Ambari支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog。

Ambari官方网站地址： http://ambari.apache.org/

3. Avro

avro([？ vr？ ]是Hadoop的子项目，由Hadoop的创始人Doug cutting (也是Lucene、Nutch等项目的创始人)主导开发。 Avro是一个数据序列化系统，专为支持大量数据交换的APP应用程序而设计。其主要特点是支持二进制序列化方式，方便快捷地处理大量数据。动态语言易于使用，Avro提供的机制使动态语言能够轻松处理Avro数据。

Avro官方网站地址： http://avro.apache.org/

Avro英文文档： http://avro.Apache.org/docs/current /

4 .案例分析

使用构建在Hadoop上的API创建复杂、容错的数据处理工作流。抽象集群拓扑和配置，快速开发复杂、分布式的APP应用程序，而不管背后的映射是什么。

Cascading官方网站地址： http://www.cascading.org/

5. Chukwa

chukwa是用于监测开源大规模分布式系统的数据收集系统。它构建在hadoop的hdfs和map/reduce框架之上，继承了hadoop的可伸缩性和健壮性。 Chukwa还包括一组强大、灵活的工具，用于查看、监视和分析收集的数据。

Chukwa官方网站地址： http://chukwa.apache.org/

6. Flume

Flume是Cloudera提供的高可用性、高可靠性、分布式大容量日志收集、聚合和传输系统，Flume支持在日志系统中定制不同类型的数据源进行数据收集； Flume还提供了轻松处理数据并将其写入各种数据收件人(可定制)的能力。

Flume官方网站地址： http://flume.apache.org/

Flume相关文档： http://flume.Apache.org/flumedeveloperguide.html

7. HBase

hbaseHadoop数据库是一个高可靠性、高性能、面向列、可扩展的分布式存储系统，使您能够利用h base技术在廉价的PC服务器上构建大型结构化存储群集。

HBase官网链接： https://hbase.apache.org/

HBase相关文档： http://h base.Apache.org/book.html

8. Hadoop分布式文件系统(HDFS )。

HDFS是一个容错系统，适合部署在廉价机器上。 HDFS提供高吞吐量的数据访问，非常适合在大型数据集上进行APP应用。 HDFS缓解了部分POSIX限制，允许文件系统数据的流式读取。 HDFS最初是作为Apache Nutch搜索引擎项目的基础架构开发的。 HDFS是Apache Hadoop Core项目的一部分。

HDFS开发文档： http://Hadoop.Apache.org/docs/r1.0.4/cn/HDFS _ design.html

9. Hive

hive是一个基于Hadoop的数据仓库工具，它提供了将结构化数据文件映射到数据库表并将sql语句转换为MapReduce任务并执行的简单sql查询功能。优点是学习费用低，可以在类SQL语句中快速实现简单的MapReduce统计信息，无需开发专用的MapReduce APP应用程序，完全适用于数据仓库的统计分析。

Hive官方网站地址： https://hive.apache.org/

10. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法，可用于数据分类、递归、推荐、k最近邻、异常检测和害羞的心情。

支持的操作系统：与操作系统无关。

Hivemall官网链接：https://github.com/myui/hivemall

11. Mahout

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

Mahout官网地址：http://mahout.apache.org/

12. MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

MapReduce相关文档：http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

13. Oozie

Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：

● 工作流定义

● 当前运行的工作流实例，包括实例的状态和变量

Oozie官网地址：http://oozie.apache.org/

14. Pig

Pig是一种数据流语言和运行环境，用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分：一是用于描述数据流的语言，称为Pig Latin；二是用于运行Pig Latin程序的执行环境。

Pig官网地址：http://pig.apache.org/

15. Sqoop

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop官网地址：http://sqoop.apache.org/

Sqoop相关文档：http://sqoop.apache.org/docs/1.4.5/index.html

16. Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark官网地址：http://spark.apache.org/

17. Tez

Tez建立在Apache Hadoop YARN的基础上，这是“一种应用程序框架，允许为任务构建一种复杂的有向无环图，以便处理数据。”它让Hive和Pig可以简化复杂的任务，而这些任务原本需要多个步骤才能完成。

支持的操作系统：Windows、Linux和OS X。

Tez官网链接：http://tez.apache.org

18. Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

Zookeeper官网：http://zookeeper.apache.org/

以上就是对大数据开发工具的介绍，想要了解更多的大数据信息，可以去光环大数据官网(hadoop.aura.cn)了解。