首页 > 编程知识 正文

hadoop生态系统主要的组件,大数据环境搭建hadoop

时间:2023-05-05 21:38:28 阅读:57024 作者:897

大数据系列文章总结链接-更新为15条

HDFS :分布式存储系统(HDFS )提供高可靠性、高可扩展性和高吞吐量的数据存储服务HDFS基于谷歌于2003年10月发表的GFS论文GFS克隆版YARN :资源管理系统(Yet Another Resource Negotiator )负责集群资源的统一管理和调度,在Hadoop 2.0中添加系统,将多个计算框架放在一个集群中具有编程方便、容错性强、可扩展性高等优点的MapReduce来源于2004年12月发表的谷歌MapReduce论文,是谷歌MapReduce的克隆版hive:Facebook Hive定义了SQL查询语言——HQL的类型。 与SQL类似,但不是完全相同的日志分析。 统计网站一个期间内的pv、uv pig :雅虎! 开源、构建在Hadoop之上的数据仓库Mahout :基于数据挖掘库、基于Hadoop的机器学习和数据挖掘的分布式计算框架是推荐(Recommendation )、克拉分类) class ification (hbaaation )实现三种算法的2006年11月发表的谷歌Bigtable论文是谷歌Bigtable克隆版Zookeeper :分布式协作服务Chubby克隆版解决了分布式环境中的数据管理问题。 统一命名、状态同步、集群管理、配置同步Sqoop :支持数据同步工具、Hadoop与传统数据库之间的桥梁、MySQL、DB2等多种数据库,插件式,用户根据需要添加新数据库本质上是MapReduce程序Flume :日志收集工具;Cloudera开源日志收集系统Oozie :作业流调度系统;目前计算框架和作业种类繁多: MapReduce Pig等如何统一管理和调度这些框架和作业:不同作业之间存在依赖关系(定期工作时执行的工作执行状态的监视和警报(邮件、邮件等) ) )。

Hadoop发行版apache hadoop版本CDH:clouderadistributedhadoop 3358 archive.cloud era.com/CD H5/CDH/HDP:hortonworksdatapll 不需要面对框架选择的问题。 建议使用CDH或HDP。 建议使用国内主流版本(CDH )

-----------------------微信公众号:对IT人发展的关注

大数据技术QQ群: 485681776

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。