相关疑难解决方法(0)

镶木地板格式与其他格式相比有哪些优缺点？

Apache Parquet的特点是:

自描述
列式格式
与语言无关

与Avro,序列文件,RC文件等相比.我想要格式的概述.我已经读过:Impala如何与Hadoop文件格式配合使用,它提供了一些格式的见解,但我想知道如何以这些格式完成数据访问和数据存储.木地板如何优于其他木地板？

hadoop file hdfs avro parquet

112
推荐指数

4
解决办法

7万
查看次数

S3:如何在不下载完整文件的情况下进行部分读/读？

虽然它们类似于文件,但是Amazon S3中的对象并不是真正的"文件",就像S3存储桶不是真正的目录一样.在Unix系统上,我可以使用它head来预览文件的前几行,无论它有多大,但我不能在S3上执行此操作.那么如何对S3进行部分阅读呢？

http amazon-s3 http-headers

24
推荐指数

3
解决办法

2万
查看次数

Parquet谓词下推在使用Spark非EMR的S3上有效吗？

只是想知道Parquet谓词下推是否也适用于S3，而不仅限于HDFS。具体来说，如果我们使用Spark（非EMR）。

进一步的解释可能会有所帮助，因为它可能涉及对分布式文件系统的理解。

amazon-s3 apache-spark parquet

6
推荐指数

2
解决办法

2674
查看次数

Azure Data Lake 的 Spark 谓词下推、过滤和分区修剪

我一直在阅读有关 Spark 谓词下推和分区修剪的内容，以了解读取的数据量。我有以下与此相关的疑问

假设我有一个包含列 (Year: Int、SchoolName: String、StudentId: Int、SubjectEnrolled: String) 的数据集，其中存储在磁盘上的数据按 Year 和 SchoolName 分区，并以 parquet 格式存储在 Azure 数据湖存储中。

1）如果我发出读取spark.read（container）.filter（Year = 2019，SchoolName =“XYZ”）：

分区修剪生效后是否会只读取有限数量的分区？
Blob 存储上是否会有 I/O，数据将加载到 Spark 集群，然后进行过滤，即我是否必须为我们不需要的所有其他数据的 IO 支付 Azure 费用？
如果不是，Azure Blob 文件系统如何理解这些过滤器，因为默认情况下它不可查询？

2）如果我发出读取spark.read(container).filter(StudentId = 43)：

Spark 是否仍将过滤器推送到磁盘并仅读取所需的数据？由于我没有按此分区，它会理解每一行并根据查询进行过滤吗？
我是否需要再次为查询不需要的所有文件支付 IO 到 azure 的费用？

azure apache-spark apache-spark-sql azure-data-lake apache-spark-dataset

3
推荐指数

1
解决办法

2541
查看次数

标签统计

apache-spark ×2

apache-spark-dataset ×1

apache-spark-sql ×1

avro ×1

azure-data-lake ×1

file ×1

hdfs ×1

http ×1

http-headers ×1