hive性能优化,hive大小表关联优化

1.jobs数量多的工作效率低

UDAF、hadoop优化，如sum、count、max、min等，不怕数据倾斜问题

3.set hive.group by.skwindata=true (不能适应特定业务背景的通用算法) ) ) ) ) ) ) ) ) ) )。

4 .根据数据量合理设置映射任务数

5 .对于小文件

6 .排裁

7 .分区裁剪

排序优化

分布式by :现在在组中对sort by进行分组，然后按订单by

order by :实现全组排序，实现一个reduce，效率不高

Sort by :部分有序实现，单个reduce输出的结果有序、高效，通常与DISTRIBUTE BY关键字一起使用。 (DISTRIBUTE BY关键字可以将map指定为reduce端的分发密钥。）

集群by:col 1等效于分布式by col1sort by col 1