【大数据】SparkSql连接查询中的谓词下推处理 (3)

日期：2021-05-28 栏目：程序人生浏览：次

此时左表和右表都不再是普通的表，而是分区表，分区字段是pt，按照日期进行数据分区。同时两表查询条件依然使用OR进行连接。试想，如果不能提前对两表进行过滤，那么会有非常巨量的数据要首先进行连接处理，这个代价是非常大的。但是如果按照我们在2中的分析，使用OR连接两表的过滤条件，又不能随意的进行谓词下推，那要如何处理呢？SparkSql在这里使用了一种叫做“分区裁剪”的优化手段，即把分区并不看做普通的过滤条件，而是使用了“一刀切”的方法，把不符合查询分区条件的目录直接排除在待扫描的目录之外。

我们知道分区表在HDFS上是按照目录来存储一个分区的数据的，那么在进行分区裁剪时，直接把要扫描的HDFS目录通知Spark的Scan操作符，这样，Spark在进行扫描时，就可以直接咔嚓掉其他的分区数据了。但是，要完成这种优化，需要SparkSql的语义分析逻辑能够正确的分析出Sql语句所要表达的精确目的，所以分区字段在SparkSql的元数据中也是独立于其他普通字段，进行了单独的标示，就是为了方便语义分析逻辑能区别处理Sql语句中where条件里的这种特殊情况。

转载注明出处：https://www.heiqu.com/wpjzgp.html

【大数据】SparkSql连接查询中的谓词下推处理 (3)

相关推荐