mapreduce的工作流程(大数据mapreduce过程)

海量数据处理： MapReduce方法MapReduce适用于大数据集(通常1TB以上)的并行运算，中心操作为Map (映射)和Reduce (精简)。 Map函数独立操作每个元素，并将一系列键对映射到新的键对。也就是说，首先用Map程序将数据剪切到无关的区域，使大量的计算机处理达到分布式计算的效果，然后指定并发的Reduce函数进行结果汇总，保证所有映射键值对分别共享同一键组。

Map将一对数据一对一映射到另一对数据，映射规则由一个函数指定。例如，如果将【1、2、4、8】乘以2进行映射，则为【2、4、8、16】。 Reduce根据【1、2、4、8】的汇总规定，决定了15 (为了在top k问题庞大的数据中找到出现频率最高的前k个，或者在庞大的数据中找到最大的前k个，由其他函数指定的数据的组这种问题称为topk问题。

对于top K类问题，通常最好分割Trie树/hash小堆的顶点。也就是说，先按照散列法将数据集分解为多个小数据集，再用Trie树或hash计数各小数据集的query字数，然后用小堆求出各数据集出现频率最高的前k个数，最后全部top 例如，有1亿个浮点数，如何找到其中最大的