按时间线看超大规模数据处理的关键技术及其发生年代:
超大规模数据处理的技术发展可以分为石器时代、青铜时代、蒸汽机时代三个阶段。
石器时代石器时代》比喻了MapReduce诞生之前的时期。
数据的大规模处理问题已经存在。 2003年,谷歌已经面临超过600亿的搜索量。
但是,数据的大规模处理技术还处于彷徨的阶段。 每个公司和个人可能都有自己的工具处理数据。 没有办法抽象系统。
青铜时代2003年,MapReduce的诞生标志着超大规模数据处理的第一次革命,开创这一青铜时代的是下一篇论文《MapReduce: Simplified Data Processing on Large Clusters》。
杰夫(杰夫迪恩)和热心煎鸡蛋(Sanjay Ghemawat )从纷繁复杂的业务逻辑中抽象出了贴图和重做这样充分通用的编程模型。 后来的Hadoop只有对GFS、BigTable、MapReduce的依葫芦画瓢。
蒸汽机的时代到了2014年左右,谷歌内部几乎没有人再写新的地图了。
从2016年开始,谷歌在新员工培训中不要在内部将MapReduce与flumejava(Apacheflume )混淆。 是两种技术。 ) )的数据处理技术。
这标志着青铜时代的结束,同时也标志着蒸汽机时代的开始。 之所以跳过《铁器时代》等记述,是因为只有工业革命的概念才能解释从MapReduce向FlumeJava进化的划时代意义。
文章: 《大规模数据处理实战》 (快速乌龟) ) ) ) ) )