首页 > 编程知识 正文

hive性能优化,hive大小表关联优化

时间:2023-05-04 03:11:02 阅读:22924 作者:4518

1.jobs数量多的工作效率低

UDAF、hadoop优化,如sum、count、max、min等,不怕数据倾斜问题

3.set hive.group by.skwindata=true (不能适应特定业务背景的通用算法) ) ) ) ) ) ) ) ) ) )。

4 .根据数据量合理设置映射任务数

5 .对于小文件

6 .排裁

7 .分区裁剪

排序优化

分布式by :现在在组中对sort by进行分组,然后按订单by

order by :实现全组排序,实现一个reduce,效率不高

Sort by :部分有序实现,单个reduce输出的结果有序、高效,通常与DISTRIBUTE BY关键字一起使用。 (DISTRIBUTE BY关键字可以将map指定为reduce端的分发密钥。 )

集群by:col 1等效于分布式by col1sort by col 1

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。