Imm*_*ick 5 apache-spark parquet apache-spark-sql pyspark
我在 hdfs 示例中有一个分区镶木地板数据: hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/hour=23/<part-files .镶木地板>
我想了解哪种是读取数据的最佳方式:
df = Spark.read.parquet(“hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/”).where(col('小时') == "23")
或者
df = Spark.read.parquet(“hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/hour=23”)
我想更多地了解性能和其他优势(如果有)。
| 归档时间: |
|
| 查看次数: |
12310 次 |
| 最近记录: |