首页 > 编程知识 正文

大数据hadoop实训报告总结,hadoop集群搭建实训报告

时间:2023-05-03 14:24:03 阅读:56662 作者:722

第一章大数据概论1.1大数据的主要解决是指:海量数据的存储和海量数据的分析计算问题

大数据中的存储单位:位、字节、KB、MB、GB、TB、PB、EB、ZB

1 byte=8bit1kb=1024 byte1MB=1024kb 1gb=1024 mb1tb=1024 GB…

1.2大数据特征Volume (海量)数据量巨大的Velocity (高速) (如淘宝双十一Variety (多样化) )以数据库和舒适的篮球为主的结构化数据、非结构化数据不断增加(mp4、音频影像地理位置等信息(Value )低价值密度)海量数据真正有用的是1、2、3大数据应用场景物流仓库零售旅游商品广告保险金融房地产人工智能1.4发展前景在国家层面大力支持人才短缺的本科, 已设立大数据专业薪资高1.5大数据业务流程分析产品人员需求)总用户数、日活跃数、回流用户数、连续三天天下单等)数据部门搭建数据平台,分析数据,分析指标将分析结果数据

第二章hadoop框架2.1什么是hadoop? hadoop是由apache基金会开发的分布式系统基础架构,主要解决海量数据存储和海量数据分析计算问题。 广义上,Hadoop通常是指更广泛的——hadoop生态圈2.2 Hadoop发展史

2.3硬件三大发行版硬件三大发行版: Apache、Cloudera、Hortonworks

Apache版本的最原始(最基础)版本非常适合入门学习。

Cloudera在内部整合了很多大数据框架。 支持产品CDH。

Hortonworks的文档很好。 支持产品HDP。

Apache硬件

官网: http://Hadoop.Apache.org/releases.html

下载地址: https://archive.Apache.org/dist/Hadoop/common/clouderahadoop

官网: https://www.cloud era.com/downloads/CDH/5-10-0.html

下载地址: http://archive-primary.cloud era.com/CD H5/CDH/5 /

)1) Cloudera成立于2008年,是第一家将Hadoop商用化的公司,为合作伙伴提供Hadoop商用解决方案。 主要包括支持、咨询服务和培训。

)2) 2009年Hadoop创始人Doug Cutting也加入了Cloudera公司。 Cloudera产品主要是CDH、Cloudera Manager、Cloudera支持

)3) CDH是Cloudera的Hadoop发布,完全开源,比Apache Hadoop具有更好的兼容性、安全性和稳定性。 Cloudera的标价为每年每节点10000美元。

)4) Cloudera Manager是集群的软件分发和管理监视平台,可以在几个小时内配置一个Hadoop集群,实时监视集群的节点和服务。 霍尔顿工作队硬件

官网: https://Horton works.com/products /数据中心/HDP /

下载地址: https://Horton works.com/downloads/# data-platform

(1) 2011年成立的霍尔顿工作是与雅虎和硅谷初创企业Benchmark Capital合资成立的。

)2)公司成立之初就吸纳了约25至30名Hadoop专业雅虎工程师,这些工程师都从2005年开始协助雅虎开发Hadoop,为Hadoop的80%代码做出了贡献。

)3) Hortonworks的主打产品是Hortonworksdataplatform(HDP ),同样是100%开源产品,HDP除了常见项目外,还包括Ambari、开源安装和管理

)4)霍尔顿工作目前已被Cloudera公司收购。 2.4硬件操作系统的优势

2.5 Hadoop组成

2.5.1 HDFS体系结构概述namenode(nn ) :用于保存文件的http://www.Sina.com、http://www.Sina.com) )生成时间、副本数、文件权限)、每个缓冲区位于本地文件系统元数据文件名,文件目录结构,文件属性上。 次命名(2nn ):存储文件块数据2.5.2 YARN体系结构概述

2.5.3 MapReduce体系结构概述MapReduce将计算过程分为Map和Reduce两个阶段

汇总Map阶段并行处理输入数据Reduce阶段Map结果

2.6大数据技术生态系统

sqoop:sqoop是一个开源工具,

主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如:MySql,Oracle等)中的数据导进到HDFS上,或者将HDFS上数据导出到关系型数据库中。Flume:Flume是一个高可用的,高可靠的,分布式的,海量日志采集,聚合和传输的系统,flume支持在日志系统中定制各类数据发送方,用于收集数据;Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算场景较多。Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。Hbase:Hbase是一个分布式的,面向队列的开源数据库。Hbase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。Hive:Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化是数据映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Zookeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。 2.7 推荐系统框架图

第3章 hadoop集群搭建(重要部分) 3.1 Hadoop目录结构 [atguigu@hadoop102 hadoop-3.1.3]$ ll总用量 52drwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 暴躁的白羊drwxr-xr-x. 3 atguigu atguigu 4096 5月 22 2017 etcdrwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 includedrwxr-xr-x. 3 atguigu atguigu 4096 5月 22 2017 libdrwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 libexec-rw-r--r--. 1 atguigu atguigu 15429 5月 22 2017 LICENSE.txt-rw-r--r--. 1 atguigu atguigu 101 5月 22 2017 NOTICE.txt-rw-r--r--. 1 atguigu atguigu 1366 5月 22 2017 README.txtdrwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 s暴躁的白羊drwxr-xr-x. 4 atguigu atguigu 4096 5月 22 2017 share 暴躁的白羊目录:存放对Hadoop相关服务(HDFS、YARN)进行操作的脚本etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)s暴躁的白羊目录:存放启动或停止Hadoop相关服务的脚本share目录:存放Hadoop的依赖jar包、文档、和官方案例 第4章 Hadoop运行模式(重要部分)

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
Hadoop官网:http://hadoop.apache.org/

4.1 完全分布式运行模式 准备3台客户机(关闭防火墙,改成静态ip,主机名称)安装JDK配置环境变量安装Hadoop配置hadoop环境变量配置集群单点启动配置SSH群起并测试集群 4.1.1 编写集群分发脚本xsync scp(secure copy)安全拷贝 scp定义:
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法: scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称 案例实操 在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 atguigu@hadoop103:/opt/module rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。 基本语法 rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname命令 选项参数 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称 案例实操 把hadoop102机器上的/opt/software目录同步到hadoop103服务器的/opt/software目录下[atguigu@hadoop102 opt]$ rsync -av /opt/software/* atguigu@hadoop103:/opt/software xsync集群分发脚本 1)需求:循环复制文件到所有节点的相同目录下rsync -av /opt/module root@hadoop103:/opt/在该文件中编写如下代码#!/暴躁的白羊/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in hadoop102 hadoop103 hadoop104do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送 for file in $@ do #4. 判断文件是否存在 if [ -e $file ] then #5. 获取父目录 pdir=$(cd -P $(dirname $file); pwd) #6. 获取当前文件的名称 fname=$(basename $file) ssh $host "mkdir -p $pdir" rsync -av $pdir/$fname $host:$pdir else echo $file does not exists! fi donedone 4.1.2 配置SSH免密 原理

生成公钥和私钥: [atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥) 将公钥拷贝到要免密登录的目标机器上 [atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104 4.2 集群启停脚本

hadoop集群启停脚本(包含hdfs,yarn,historyserver):myhadoop.sh

#!/暴躁的白羊/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in"start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/s暴躁的白羊/start-dfs.sh" echo " --------------- 启动 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/s暴躁的白羊/start-yarn.sh" echo " --------------- 启动 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/暴躁的白羊/mapred --daemon start historyserver";;"stop") echo " =================== 关闭 hadoop集群 ===================" echo " --------------- 关闭 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/暴躁的白羊/mapred --daemon stop historyserver" echo " --------------- 关闭 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/s暴躁的白羊/stop-yarn.sh" echo " --------------- 关闭 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/s暴躁的白羊/stop-dfs.sh";;*) echo "Input Args Error...";;esac

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。