一.大数据
1.4V--数据量大/数据种类多/处理速度快/价值密度低
2 .大数据技术---数据收集/数据存储和管理/数据处理和分析/数据隐私和安全
3 .大数据处理模式- -批处理模式/流程模式/图表模式/查询分析模式
二.云计算
1 .云计算---通过网络将分布式存储和分布式处理转化为服务提供
2.3S--IAAS“基础架构即服务”/PAAS“平台即服务”/SAAS“软件即服务”
3 .云计算技术---虚拟化/分布式存储/分布式处理/多租户
三.物联网
1 .物联网--物与物相连的网络
2 .物联网架构--- APP应用层/处理层/网络层/感知层
3 .物联网技术---识别和感知技术/网络和通信技术/数据挖掘和融合技术
四. Hadoop
1.Hadoop--Apache开源分布式计算平台
2.Hadoop特性- -高可靠性/高效率/高扩展性/高容错性/低成本/在/Java开发linux系统上运行/支持多语言api
3.Hadoop企业架构-
4.Hadoop发行版---
5.Hadoop1.0和2.0之间的差异-
6.Hadoop项目框架-
7 .安装Hadoop -
1 .独立模式(缺省本地模式,单节点单java进程)
2 .伪分布式模式(单节点多java进程) ) ) ) ) ) ) )。
3 .分布式模式(多节点集群方式) )。
五.分布式文件系统HDFS
主要节点类型-
1.namenode--fsimageeditlog
2.datanode---- jobtrackertasktracker
3 .作为第二名称节点NameNode的备用
6 .分布式数据库HBase
1.HBase--HBase是BigTable的开源实现,用于存储非结构化、半结构化、松散的数据,是一种可靠、高性能、面向列、可扩展的分布式数据库(分布式存储系统)。
2.HBase与传统关系数据库的区别-
数据类型:关系数据库采用丰富的数据类型和存储方式,HBase将数据作为未解释的字符串存储
数据操作:关系数据库具有复杂的多表连接,不存在HBase,只需简单的插入、查询、删除和清空
存储模式:关系数据库是行模式存储,HBase是列模式存储
数据索引:关系数据库可以构建复杂的多个索引,HBase中只有一个键索引
数据维护:关系数据库更新将覆盖旧值,HBase更新将保留旧版本
可伸缩性:关系数据库难以进行横向和纵向扩展,HBase容易实现现实的水平扩展
3.HBase接口访问---
4.HBase数据模型(表/行键/列族/列修饰符/时间戳)四维坐标:[ (行键、列族、列修饰符、时间戳) -
5.HBase功能组件(库函数/一台主服务器/多台Region服务器) -
库函数用于连接客户端
主服务器用于管理和维护分区信息、维护Region服务器列表、Region分配和负载平衡
Region服务用于存储分配给自己的Region并处理来自客户端的请求
客户端缓存位置信息。 访问zookeeper以获取路由表的位置,并在路由表中记录元表的位置信息
只有一个根表,元表被划分为多个Region,元表记录Region和Region服务之间的映射关系
6.HBase系统架构---
7.Region服务器-
8.HBase性能监控--Master_status (自带)/Ganglia/OpenTSDB/Ambari
9.HBase的SQL有引擎--Hive集成HBase/Phoenix
10 .利用hbasecoprocessor特性构建二级索引--Hindex二级索引/HBase Redis/HBase Solr
NoSQL数据库
1 .数据处理分为OLTP (在线事务处理)/OLAP (在线分析处理)
2 .数据库被划分为关系数据库(RDBMS )和非关系数据库(NoSQL )
3.RDBMS被划分成OldSQL(Oracle、mysql、postgreSql等)/newsql (sequoia db、mysql cluster等)
4.NOSQL被分成键值数据库(redis )、文档数据库(mongodb )、列族数据库(Hbase )、图像数据库(Neo4j )
5.NEWSQL包含OLDSQL和NOSQL两者的特性,是新的关系数据库