Apache Parquet的特点是:
与Avro,序列文件,RC文件等相比.我想要格式的概述.我已经读过:Impala如何与Hadoop文件格式配合使用,它提供了一些格式的见解,但我想知道如何以这些格式完成数据访问和数据存储.木地板如何优于其他木地板?
虽然它们类似于文件,但是Amazon S3中的对象并不是真正的"文件",就像S3存储桶不是真正的目录一样.在Unix系统上,我可以使用它head来预览文件的前几行,无论它有多大,但我不能在S3上执行此操作.那么如何对S3进行部分阅读呢?
只是想知道Parquet谓词下推是否也适用于S3,而不仅限于HDFS。具体来说,如果我们使用Spark(非EMR)。
进一步的解释可能会有所帮助,因为它可能涉及对分布式文件系统的理解。
我一直在阅读有关 Spark 谓词下推和分区修剪的内容,以了解读取的数据量。我有以下与此相关的疑问
假设我有一个包含列 (Year: Int、SchoolName: String、StudentId: Int、SubjectEnrolled: String) 的数据集 ,其中存储在磁盘上的数据按 Year 和 SchoolName 分区,并以 parquet 格式存储在 Azure 数据湖存储中。
1)如果我发出读取spark.read(container).filter(Year = 2019,SchoolName =“XYZ”):
2)如果我发出读取spark.read(container).filter(StudentId = 43):
azure apache-spark apache-spark-sql azure-data-lake apache-spark-dataset
amazon-s3 ×2
apache-spark ×2
parquet ×2
avro ×1
azure ×1
file ×1
hadoop ×1
hdfs ×1
http ×1
http-headers ×1