1.jobs数量多的工作效率低
UDAF、hadoop优化,如sum、count、max、min等,不怕数据倾斜问题
3.set hive.group by.skwindata=true (不能适应特定业务背景的通用算法) ) ) ) ) ) ) ) ) ) )。
4 .根据数据量合理设置映射任务数
5 .对于小文件
6 .排裁
7 .分区裁剪
排序优化
分布式by :现在在组中对sort by进行分组,然后按订单by
order by :实现全组排序,实现一个reduce,效率不高
Sort by :部分有序实现,单个reduce输出的结果有序、高效,通常与DISTRIBUTE BY关键字一起使用。 (DISTRIBUTE BY关键字可以将map指定为reduce端的分发密钥。 )
集群by:col 1等效于分布式by col1sort by col 1