如何将每个 Parquet 行组读入单独的分区？

Question

我有一个包含 10 行组的镶木地板文件：

In [30]: print(pyarrow.parquet.ParquetFile("/tmp/test2.parquet").num_row_groups)
10

但是当我使用 Dask Dataframe 加载它时，它被读入单个分区：

In [31]: print(dask.dataframe.read_parquet("/tmp/test2.parquet").npartitions)
1

这似乎与此答案相矛盾，该答案指出Dask Dataframe 将每个 Parquet 行组读取到单独的分区中。

如何使用 Dask Dataframe 将每个 Parquet 行组读入单独的分区？或者数据必须分布在不同的文件中才能正常工作吗？

Answer 1

我相信 fastparquet 将单独读取每个行组，并且 pyarrow 显然不能被视为错误，或者至少可以被视为您可以在 dask 问题跟踪器上请求的功能增强。我倾向于同意一组每个包含一个行组的文件和一个包含相同行组的单个文件应该产生相同的分区结构。