mac*_*iej 7 apache-spark parquet
据我所知,Spark 支持分区发现,其中目录名称遵循固定模式:column_name=column_value。链接网页的示例:
path -> to -> table -> gender=male -> country=US -> data.parquet
我想使用此功能,但不幸的是我当前正在处理的文件结构不遵循此模式。我无法改变它并且转换它是不可行的。就我而言,目录纯粹是列值,如下所示:
path -> to -> table -> male -> US -> data.parquet
理想情况下,我想配置 Spark 以指示“table”目录的子目录包含“gender”,然后是“country”子目录,依此类推。
我正在使用 Java 的 Spark 2.11。我也在使用 Parquet 文件。
归档时间: |
|
查看次数: |
445 次 |
最近记录: |