首页 > 编程知识 正文

mapreduce的工作流程(大数据mapreduce过程)

时间:2023-05-04 08:08:09 阅读:70797 作者:4888

海量数据处理: MapReduce方法MapReduce适用于大数据集(通常1TB以上)的并行运算,中心操作为Map (映射)和Reduce (精简)。 Map函数独立操作每个元素,并将一系列键对映射到新的键对。 也就是说,首先用Map程序将数据剪切到无关的区域,使大量的计算机处理达到分布式计算的效果,然后指定并发的Reduce函数进行结果汇总,保证所有映射键值对分别共享同一键组。

Map将一对数据一对一映射到另一对数据,映射规则由一个函数指定。 例如,如果将【1、2、4、8】乘以2进行映射,则为【2、4、8、16】。 Reduce根据【1、2、4、8】的汇总规定,决定了15 (为了在top k问题庞大的数据中找到出现频率最高的前k个,或者在庞大的数据中找到最大的前k个,由其他函数指定的数据的组这种问题称为topk问题。

对于top K类问题,通常最好分割Trie树/hash小堆的顶点。 也就是说,先按照散列法将数据集分解为多个小数据集,再用Trie树或hash计数各小数据集的query字数,然后用小堆求出各数据集出现频率最高的前k个数,最后全部top 例如,有1亿个浮点数,如何找到其中最大的

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。