大数据入门概要(1)首先,考虑一下为什么能做大数据,或者能做什么。
与普通数据相比,大数据出现在哪里? 大数据大数据,关键是什么,大! 这么浅显,大,什么大,数据大。 以这所大学为中心好好谈谈这个大数据吧。
一、概念(三无,两海) 1、大数据是指无法通过常用软件等工具抓取数据内容,管理和处理果子狸的数据集合(三无)。
2、大数据主要解决(两海) )海量数据存储和海量数据计算问题。
二、特性(4v )二固)四种特性) 4v ) :
Volume :大数据量。 大部分是过去两年生成的数据
Velocity :速度很快。 数据增长迅速,时效性强
Variety :多样化。 数据种类和数据源多样化。 结构化数据半结构化数据非结构化数据。
Value :价值密度低。 需要深入挖掘数据信息。
固有特性:
时效性
没有偏差
三、介绍Hadoop 1、Hadoop是一种开源分布式系统架构。
我们可以看到他的发展和版本。
(1)、Hadoop从搜索引擎Apache Nutch开始
创始人: Doug Cutting
2004年:最初版本
2008年:成为Apache顶级项目
) 2、Hadoop发布的版本
社区版: Apache Hadoop版。 开源,免费,我知道。 国内几乎所有的公司都在使用。
Cloudera发行版: CDH。 这个现在好像需要money,适合小公司,兼容性很高。
Hortonworks发行版: HDP。 这个我就不多介绍了,感兴趣的人可以查一下。
)3)那么,为什么要使用Hadoop呢? (三高三优)。
让我先谈谈三高:
可扩展性更高:通过将任务数据分配给集群件,可以轻松扩展数千个节点。
高可靠性: Hadoop的基础维护着多个数据拷贝。
高弹性: Hadoop会自动重新分配失败的任务。
听到这三高,你觉得他已经很牛了吗? 不要着急。 还有。
说一下那三个优点吧:
低成本: Hadoop体系结构允许部署在各种机器上。 即使你的机器是垃圾也可以哦。 又旧又便宜。
灵活性: Hadoop可以存储在任何类型的数据中。
开源:开放,社区活跃,许多大神在社区活动。 你们都知道。 我还没赶紧抱着大腿。 有点。
) 4、Hadoop与RDBMs数据库的比较
既然我们谈到了数据库,就比较一下两个人吧。
为了让大家清楚地了解它们的区别和优秀,我给它们做了一个表格(),在此声明。 绝对不是我懒惰,主要是最近一直在敲字,好像要吐了。 )
以HadoopRDBMS格式读取数据、写入数据、写入数据的速度、读取数据的速度、管理数据的任意数据结构标准结构化数据处理能力绝对牛处理能力有限数据型结构化、半结构化、非结构化只是结构化数据应用场景OLAP
处理非结构化数据
海量数据存储计算交互式OLTP
ACID事务处理
商业系统可以在这里添加OLAP和OLTP知识点
在线事务处理(OLTP ) :在线事务处理。 在数据库中处理一般业务。
线上分析处理(OLAP ) :线上分析处理。 一般来说,它处理特定主题的历史数据,帮助决策管理类型。
概要的类型大家也不想看,我们是上图。 通俗易懂地把两者进行比较吧。
2、功能解决海量数据存储、海量数据计算的问题。
3、优势1、处理海量数据的体系结构优先。
2、非常快完成大数据计算任务。
3、到目前为止,该框架已经发展成为Hadoop生态圈。
如下图所示。
关于这个巨大的Hadoop架构,让我们先简单看看他们。
乍一看,像乌龟,但其实,主要是看看这些最重要的东西吧。
以下列举。
HDFS :分布式文件系统。 解决分布式存储。
MapReduce :分布式计算框架。
关于这个巨大的Hadoop架构,让我们先简单看看他们。
乍一看,像乌龟,但其实,主要是看看这些最重要的东西吧。
以下列举。
HDFS :分布式文件系统。 解决分布式存储。
MapReduce :分布式计算框架。
YARN (分布式资源管理系统,坦率地说,也可以说是集群资源管理系统。