hadoop分布式架构图,hadoop大数据开发实战pdf

文章2.1概述2.2 Hadoop项目结构2.3 Hadoop的安装和使用2.4 Hadoop集群

2.1概述

• Hadoop是Apache软件基金会的开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构

• Hadoop基于Java语言开发，具有良好的跨平台特性，可以部署到廉价的计算机集群中

• Hadoop的核心是分布式文件系统HDFS (硬件分布式文件系统)和映射

• Hadoop作为业界大数据标准的开源软件而闻名，能够在分布式环境中处理大量数据

大多数主要制造商以Hadoop为中心，提供谷歌、雅虎、微软、思科、淘宝等开发工具、开源软件、商业化工具和技术服务

Hadoop是一种能够分布式处理大量数据的软件框架，以可靠、高效、可伸缩的方式进行处理，具有以下特点：

高可靠性

效率性

高度可扩展性

高容错能力

低成本

在Linux平台上运行

支持多种编程语言

Hadoop在企业中的APP应用架构

2.2 Hadoop项目结构Hadoop项目结构不断丰富发展，已经形成了丰富的Hadoop生态系统

2.3安装和使用Hadoop http://www.Sina.com /

关于Linux的一些基础知识

shell :“提供用户使用的界面”软件(命令解析器)，类似于DOS下的command和后续的cmd.exe。

sudo命令：管理员可以授权某些普通用户执行需要root权限的操作。使用sudo命令时，必须输入当前用户的密码

输入密码：在Linux终端上输入密码。终端不显示当前输入的密码

输入法英语切换：在linux上，英语切换方式通过键盘上的" shift "键切换。顶部菜单中有输入法按钮的切换。

Ubuntu终端复制&；粘贴：在Ubuntu终端窗口中，复制&；必须为粘贴的快捷键添加shift。也就是说，粘贴是ctrl shift v

如何安装• Hadoop

独立模式：仅在一台计算机上运行，存储使用本地文件系统，不使用分布式文件系统HDFS；

伪分布式模式：存储使用分布式文件系统HDFS，但HDFS的名称节点和数据节点位于同一台计算机上。

分布式模式：存储使用分布式文件系统HDFS，HDFS的名称节点和数据节点位于不同的计算机上。

Hadoop安装之前的预备知识

材料和工具

1、下载VirtualBox虚拟机软件

https://download.virtual box.org/virtual box/6.1.4/virtual box-6.1.4-136177-win.exe

2 .下载Ubuntu lts 16.04 (或18.04 ) ISO映像文件

Ubuntu lts 16.04下载： https://www.Ubuntu.org.cn/download/Ubuntu-kylin

Ubuntu lts 18.04下载： https://Ubuntu.com/download/desktop

• Hadoop的基本安装配置主要包括以下步骤：

创建-Hadoop用户

设置ssh登录权限

安装-Java环境

独立安装配置

伪分布式安装配置

安装Linux虚拟机

如果安装-Ubuntu时不是hadoop用户，则必须添加名为hadoop的用户

首先，按ctrl alt t打开终端窗口，然后输入以下命令创建新用户：

使用以下命令设置密码，可以方便地设置为hadoop，然后根据提示输入两次密码。

通过向-Hadoop用户添加管理员权限，可以轻松部署，避免初学者遇到的权限问题。

创建Hadoop用户

什么是ssh？

secure shell的缩写。基于APP应用层和传输层构建的安全协议。 SSH目前是可靠的，是一种为远程登录会话和其他网络服务提供安全性的协议。

ssh协议可有效防止远程管理期间的信息泄露。 SSH最初是UNIX系统上的程序，后来迅速扩展到了其他操作平台。

ssh由客户端和服务器端软件组成，包括ssh程序和其他APP应用程序，如scp、slogin、sftp和securefiletransfer。服务端是守护进程，在后台运行，响应来自客户端的连接请求

配置SSH的原因：

Hadoop名称节点(NameNode )必须启动群集中所有计算机的Hadoop守护进程。此过程必须通过SSH登录来执行。高可用性

doop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置好，从而让“名称节点可以无密码登录它们”

安装Java环境
• Java环境可选择Oracle的JDK，或是OpenJDK
• 建议采用手工方式安装Java环境
– 具体请参考网络教程：http://dblab.xmu.edu.cn/blog/2441-2/
– 到Java官网下载安装文件jdk-8u162-linux-x64.tar.gz
– 在Linux命令行界面中，执行如下Shell命令（注意：当前登录用户名是hadoop：)

• 下面继续执行如下命令，设置环境变量：
请在这个文件的开头位置，添加如下几行内容，设置环境变量：
继续执行如下命令让.bashrc文件的配置立即生效：
• 这时，可以使用如下命令查看是否安装成功：

如果能够在屏幕上返回如下信息，则说明安装成功：

• 关于三种Shell命令方式的区别：
– 1. hadoop fs
– 2. hadoop dfs
– 3. hdfs dfs
– hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
– hadoop dfs只能适用于HDFS文件系统
– hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

2.4 Hadoop集群

• Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce：
• （1）从磁盘或从网络读取数据，即IO密集工作；
• （2）计算数据，即CPU密集工作
• 一个基本的Hadoop集群中的节点主要有
• NameNode：负责协调集群中的数据存储
• DataNode：存储被拆分的数据块
• JobTracker：协调数据计算任务
• TaskTracker：负责执行由JobTracker指派的任务
• SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息
• 在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的，即数据存储和计算。
• Datanode/TaskTracker的硬件规格可以采用以下方案：
• 4个磁盘驱动器（单盘1-2T），支持JBOD(Just a Bunch Of Disks，磁盘簇)
• 2个4核CPU,至少2-2.5GHz
• 16-24GB内存
• 千兆以太网