大数据的定义:大数据(big data )是指在一定时期内无法用普通软件工具捕获、管理、处理的数据集合,为了具有更强的决策力、洞察发现力、流程优化能力需要新的处理模型
hhdny与温婉春天撰写的《大数据时代》年大数据是指不使用随机分析法(抽样调查)等快捷方式,而是使用所有数据进行分析处理。 大数据的5V特征(由IBM提出) (大量)、Velocity )、高速)、Variety )、多样)、Value )、低价值密度)、Veracity )真实性)。
技术清单HadoopMapReduce
NoSQL数据库
内存分析
集成设备
工具目前用于处理大数据分析大数据的工具主要有开源和商用两个生态圈。
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapReduce、HBase、Hive逐渐诞生,早期Hadoop生态圈逐渐形成。
2, Hypertable是替代品。 虽然存在于Hadoop生态圈之外,但曾经有一些用户。
3、NoSQL、membase、MongoDb
商用大数据生态圈:
1、一体化数据库/数据仓库: IBMpuredata(netezza )、OracleExadata、SAP Hana等。
2、数据仓库: TeradataAsterData、EMCGreenPlum、HPVertica等。
3、数据集市: QlikView、Tableau,以及国内永红数据集市。
转载于:https://my.oschina.net/u/3807682/blog/1807846