大数据开发流程:
提出产品需求的数据部门建立数据平台(构建集群),分析数据指标。 数据可视化(邮件展示、邮件发送、大屏幕展示) )。
大数据部门的组织结构:
什么是Hadoop? 作用?
狭义: Haloop是分布式的系统基础设施
广义: Hallop生态圈。
作用:解决海量数据存储与分析、计算问题。 Hadoop的特征:
高可靠性:多拷贝
效率:并行
容错:重新分配
可扩展性:修改配置文件
理解映像:
Hadoop的体系结构分为几个部分。
1.x为HDFS,MapReduce,common
2.x为HDFS,MapReduce,Yarn,common
区别:1.xMapReduce做两件事,计算和资源调度
2.x MapReduce做一件事,资源安排由Yarn做
也就是说2.x增加Yarn
硬磁盘文件系统(HDFS ) )分布式文件系统)角色:数据存储