在这里写目录标题。 本文介绍了broadcast join对spark 2.2版中的问题进行故障排除的自动触发条件。 解决无法自动触发boardcast join的情况
本文讨论了spark 2.2版中的问题
spark sql执行sql语句。
big _ tablealeftjoinsmall _ table bona.id=b.id small _ table只有100行以上的数据。
big_table是大约5亿行的数据。
由于没有broadcast join来触发spark sql,因此sql运行缓慢。
问题故障排除broadcast join自动触发条件。 小表格中的size是否小于在spark.SQL.autobroadcastjointhreshold中设置的值。 表大小的估计是通过hive元数据数据库的统计来进行的。 这意味着您必须确保analyzetablecomputestatisticsnoscan已经在运行。