我一直在阅读有关 Spark 谓词下推和分区修剪的内容,以了解读取的数据量。我有以下与此相关的疑问
假设我有一个包含列 (Year: Int、SchoolName: String、StudentId: Int、SubjectEnrolled: String) 的数据集 ,其中存储在磁盘上的数据按 Year 和 SchoolName 分区,并以 parquet 格式存储在 Azure 数据湖存储中。
1)如果我发出读取spark.read(container).filter(Year = 2019,SchoolName =“XYZ”):
2)如果我发出读取spark.read(container).filter(StudentId = 43):
azure apache-spark apache-spark-sql azure-data-lake apache-spark-dataset