首页 > 编程知识 正文

hadoop分布式架构图,hadoop大数据开发实战pdf

时间:2023-05-05 13:01:57 阅读:138948 作者:2857

文章2.1概述2.2 Hadoop项目结构2.3 Hadoop的安装和使用2.4 Hadoop集群

2.1概述

• Hadoop是Apache软件基金会的开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构

• Hadoop基于Java语言开发,具有良好的跨平台特性,可以部署到廉价的计算机集群中

• Hadoop的核心是分布式文件系统HDFS (硬件分布式文件系统)和映射

• Hadoop作为业界大数据标准的开源软件而闻名,能够在分布式环境中处理大量数据

大多数主要制造商以Hadoop为中心,提供谷歌、雅虎、微软、思科、淘宝等开发工具、开源软件、商业化工具和技术服务

Hadoop是一种能够分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式进行处理,具有以下特点:

高可靠性

效率性

高度可扩展性

高容错能力

低成本

在Linux平台上运行

支持多种编程语言

Hadoop在企业中的APP应用架构

2.2 Hadoop项目结构Hadoop项目结构不断丰富发展,已经形成了丰富的Hadoop生态系统

2.3安装和使用Hadoop http://www.Sina.com /

关于Linux的一些基础知识

shell :“提供用户使用的界面”软件(命令解析器),类似于DOS下的command和后续的cmd.exe。

sudo命令:管理员可以授权某些普通用户执行需要root权限的操作。 使用sudo命令时,必须输入当前用户的密码

输入密码:在Linux终端上输入密码。 终端不显示当前输入的密码

输入法英语切换:在linux上,英语切换方式通过键盘上的" shift "键切换。 顶部菜单中有输入法按钮的切换。

Ubuntu终端复制&; 粘贴:在Ubuntu终端窗口中,复制&; 必须为粘贴的快捷键添加shift。 也就是说,粘贴是ctrl shift v

如何安装• Hadoop

独立模式:仅在一台计算机上运行,存储使用本地文件系统,不使用分布式文件系统HDFS;

伪分布式模式:存储使用分布式文件系统HDFS,但HDFS的名称节点和数据节点位于同一台计算机上。

分布式模式:存储使用分布式文件系统HDFS,HDFS的名称节点和数据节点位于不同的计算机上。

Hadoop安装之前的预备知识

材料和工具

1、下载VirtualBox虚拟机软件

https://download.virtual box.org/virtual box/6.1.4/virtual box-6.1.4-136177-win.exe

2 .下载Ubuntu lts 16.04 (或18.04 ) ISO映像文件

Ubuntu lts 16.04下载: https://www.Ubuntu.org.cn/download/Ubuntu-kylin

Ubuntu lts 18.04下载: https://Ubuntu.com/download/desktop

• Hadoop的基本安装配置主要包括以下步骤:

创建-Hadoop用户

设置ssh登录权限

安装-Java环境

独立安装配置

伪分布式安装配置

安装Linux虚拟机

如果安装-Ubuntu时不是hadoop用户,则必须添加名为hadoop的用户

首先,按ctrl alt t打开终端窗口,然后输入以下命令创建新用户:

使用以下命令设置密码,可以方便地设置为hadoop,然后根据提示输入两次密码。

通过向-Hadoop用户添加管理员权限,可以轻松部署,避免初学者遇到的权限问题。

创建Hadoop用户

什么是ssh?

secure shell的缩写。 基于APP应用层和传输层构建的安全协议。 SSH目前是可靠的,是一种为远程登录会话和其他网络服务提供安全性的协议。

ssh协议可有效防止远程管理期间的信息泄露。 SSH最初是UNIX系统上的程序,后来迅速扩展到了其他操作平台。

ssh由客户端和服务器端软件组成,包括ssh程序和其他APP应用程序,如scp、slogin、sftp和securefiletransfer。 服务端是守护进程,在后台运行,响应来自客户端的连接请求

配置SSH的原因:

Hadoop名称节点(NameNode )必须启动群集中所有计算机的Hadoop守护进程。 此过程必须通过SSH登录来执行。 高可用性

doop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置好,从而让“名称节点可以无密码登录它们”

安装Java环境
• Java环境可选择Oracle的JDK,或是OpenJDK
• 建议采用手工方式安装Java环境
– 具体请参考网络教程:http://dblab.xmu.edu.cn/blog/2441-2/
– 到Java官网下载安装文件jdk-8u162-linux-x64.tar.gz
– 在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop:)


• 下面继续执行如下命令,设置环境变量:
请在这个文件的开头位置,添加如下几行内容,设置环境变量:
继续执行如下命令让.bashrc文件的配置立即生效:
• 这时,可以使用如下命令查看是否安装成功:

如果能够在屏幕上返回如下信息,则说明安装成功:

• 关于三种Shell命令方式的区别:
– 1. hadoop fs
– 2. hadoop dfs
– 3. hdfs dfs
– hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
– hadoop dfs只能适用于HDFS文件系统
– hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统

2.4 Hadoop集群

• Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce:
• (1)从磁盘或从网络读取数据,即IO密集工作;
• (2)计算数据,即CPU密集工作
• 一个基本的Hadoop集群中的节点主要有
• NameNode:负责协调集群中的数据存储
• DataNode:存储被拆分的数据块
• JobTracker:协调数据计算任务
• TaskTracker:负责执行由JobTracker指派的任务
• SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

• 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的,即数据存储和计算。
• Datanode/TaskTracker的硬件规格可以采用以下方案:
• 4个磁盘驱动器(单盘1-2T),支持JBOD(Just a Bunch Of Disks,磁盘簇)
• 2个4核CPU,至少2-2.5GHz
• 16-24GB内存
• 千兆以太网

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。