首页 > 编程知识 正文

hadoop基础教程,hadoop使用教程

时间:2023-05-04 00:33:51 阅读:51493 作者:233

百科全书: Hadoop是由Apachefoundation开发的分布式系统基础架构。

Hadoop专为离线和大数据分析而设计,不适用于随机读写一些记录的在线事务处理模型。

Hadoop=HDFS (文件系统、数据存储技术相关) Mapreduce (数据处理) ) Hadoop数据源可以是任意格式,在处理半结构化和非结构化数据方面优于关系数据库

函数表达式为Mapreduce而不是SQL。 SQL是查询语句,但Mapreduce使用脚本和代码。 应用于关系数据库时,熟悉SQL的Hadoop具有开源工具hive。

hadoop是用java写的,版本很混乱,初学者可以从1.2.1开始学习

1 .数百、数千台服务器构成集群,需要始终检测服务器是否发生故障

2 .通过流读取数据更高效、更快

3 .存储节点具有运算功能,省略了在服务器之间发送和接收数据的网络带宽限制

4.1次写入、多次访问、无数据修改

5 .多平台

namenode:master负责总体日程安排、调整请求的处理等

(一个群集只有一个namenode,但可以在多个群集上配置一个大群集。 在这种情况下,有多个namenode。 在这种情况下,namenode有两种称为active的状态,以及一个大群集只有一个namenode的状态。 一个是standby )

namenode的两个主要功能:从客户端接收读写服务的元数据(基本信息,如DataNode的存储位置,fsimage和edits文件) )。

fsimage是在格式化namenode时生成的,而edits是在用户操作添加或修改时生成的日志

datanode:slave、存储节点、备份、普通本地2分、其他服务1分

机架:多个DataNod节点,主节点通过机架识别技术了解所需的数据位置

数据块:的存储单元,一般为64m (在Hadoop 2中为128M ) ) )。

始终保持心跳通信,确保每个数据备份到三个节点

的read在读取完第一个数据块后读取下一个数据块。 如果在读取过程中一个数据块出现问题,请记录它以查找另一个备份,然后再也不会读取错误的数据块

map负责批处理操作,如果要计算1TB数据中my的读取数,请启用100个map,为每个map计数0.01TB的数据,最终汇总为reduce

作业(Job ) :运行MapReduce所需的所有jar组件

任务:映射任务和创建任务

Key用同样的结果进行reduce统计整合

作业通常提交jar包和配置文件

时间表通常默认采用FIFO时间表。 也就是说,在考虑优先顺序后,进行先进先出

任务跟踪者一直想向任务跟踪者传达任务信息,有空就主动申请工作

典型的生产环境是完全分布式模式。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。