文章2.1概述2.2 Hadoop项目结构2.3 Hadoop的安装和使用2.4 Hadoop集群
2.1概述
• Hadoop是Apache软件基金会的开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
• Hadoop基于Java语言开发,具有良好的跨平台特性,可以部署到廉价的计算机集群中
• Hadoop的核心是分布式文件系统HDFS (硬件分布式文件系统)和映射
• Hadoop作为业界大数据标准的开源软件而闻名,能够在分布式环境中处理大量数据
大多数主要制造商以Hadoop为中心,提供谷歌、雅虎、微软、思科、淘宝等开发工具、开源软件、商业化工具和技术服务
Hadoop是一种能够分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式进行处理,具有以下特点:
高可靠性
效率性
高度可扩展性
高容错能力
低成本
在Linux平台上运行
支持多种编程语言
Hadoop在企业中的APP应用架构
2.2 Hadoop项目结构Hadoop项目结构不断丰富发展,已经形成了丰富的Hadoop生态系统
2.3安装和使用Hadoop http://www.Sina.com /
关于Linux的一些基础知识
shell :“提供用户使用的界面”软件(命令解析器),类似于DOS下的command和后续的cmd.exe。
sudo命令:管理员可以授权某些普通用户执行需要root权限的操作。 使用sudo命令时,必须输入当前用户的密码
输入密码:在Linux终端上输入密码。 终端不显示当前输入的密码
输入法英语切换:在linux上,英语切换方式通过键盘上的" shift "键切换。 顶部菜单中有输入法按钮的切换。
Ubuntu终端复制&; 粘贴:在Ubuntu终端窗口中,复制&; 必须为粘贴的快捷键添加shift。 也就是说,粘贴是ctrl shift v
如何安装• Hadoop
独立模式:仅在一台计算机上运行,存储使用本地文件系统,不使用分布式文件系统HDFS;
伪分布式模式:存储使用分布式文件系统HDFS,但HDFS的名称节点和数据节点位于同一台计算机上。
分布式模式:存储使用分布式文件系统HDFS,HDFS的名称节点和数据节点位于不同的计算机上。
Hadoop安装之前的预备知识
材料和工具
1、下载VirtualBox虚拟机软件
https://download.virtual box.org/virtual box/6.1.4/virtual box-6.1.4-136177-win.exe
2 .下载Ubuntu lts 16.04 (或18.04 ) ISO映像文件
Ubuntu lts 16.04下载: https://www.Ubuntu.org.cn/download/Ubuntu-kylin
Ubuntu lts 18.04下载: https://Ubuntu.com/download/desktop
• Hadoop的基本安装配置主要包括以下步骤:
创建-Hadoop用户
设置ssh登录权限
安装-Java环境
独立安装配置
伪分布式安装配置
安装Linux虚拟机
如果安装-Ubuntu时不是hadoop用户,则必须添加名为hadoop的用户
首先,按ctrl alt t打开终端窗口,然后输入以下命令创建新用户:
使用以下命令设置密码,可以方便地设置为hadoop,然后根据提示输入两次密码。
通过向-Hadoop用户添加管理员权限,可以轻松部署,避免初学者遇到的权限问题。
创建Hadoop用户
什么是ssh?
secure shell的缩写。 基于APP应用层和传输层构建的安全协议。 SSH目前是可靠的,是一种为远程登录会话和其他网络服务提供安全性的协议。
ssh协议可有效防止远程管理期间的信息泄露。 SSH最初是UNIX系统上的程序,后来迅速扩展到了其他操作平台。
ssh由客户端和服务器端软件组成,包括ssh程序和其他APP应用程序,如scp、slogin、sftp和securefiletransfer。 服务端是守护进程,在后台运行,响应来自客户端的连接请求
配置SSH的原因:
Hadoop名称节点(NameNode )必须启动群集中所有计算机的Hadoop守护进程。 此过程必须通过SSH登录来执行。 高可用性
doop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置好,从而让“名称节点可以无密码登录它们”安装Java环境
• Java环境可选择Oracle的JDK,或是OpenJDK
• 建议采用手工方式安装Java环境
– 具体请参考网络教程:http://dblab.xmu.edu.cn/blog/2441-2/
– 到Java官网下载安装文件jdk-8u162-linux-x64.tar.gz
– 在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop:)
• 下面继续执行如下命令,设置环境变量:
请在这个文件的开头位置,添加如下几行内容,设置环境变量:
继续执行如下命令让.bashrc文件的配置立即生效:
• 这时,可以使用如下命令查看是否安装成功:
如果能够在屏幕上返回如下信息,则说明安装成功:
• 关于三种Shell命令方式的区别:
– 1. hadoop fs
– 2. hadoop dfs
– 3. hdfs dfs
– hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
– hadoop dfs只能适用于HDFS文件系统
– hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统
• Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce:
• (1)从磁盘或从网络读取数据,即IO密集工作;
• (2)计算数据,即CPU密集工作
• 一个基本的Hadoop集群中的节点主要有
• NameNode:负责协调集群中的数据存储
• DataNode:存储被拆分的数据块
• JobTracker:协调数据计算任务
• TaskTracker:负责执行由JobTracker指派的任务
• SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
• 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的,即数据存储和计算。
• Datanode/TaskTracker的硬件规格可以采用以下方案:
• 4个磁盘驱动器(单盘1-2T),支持JBOD(Just a Bunch Of Disks,磁盘簇)
• 2个4核CPU,至少2-2.5GHz
• 16-24GB内存
• 千兆以太网