如何将多个 .parquet 文件从多个目录读入单个 Pandas 数据帧?

Ahm*_*man 3 pandas parquet

我需要从多个目录中读取镶木地板文件。

例如,

 Dir---
          |
           ----dir1---
                      |
                       .parquet
                       .parquet
          |
           ----dir2---
                      |
                       .parquet
                       .parquet
                       .parquet
Run Code Online (Sandbox Code Playgroud)

有没有办法将这些文件读取到单个熊猫数据框?

注意:所有镶木地板文件都是使用 pyspark 生成的。

jez*_*ael 6

用于read_parquet列表理解和with (python 3.5+)concat生成的所有文件:glob**

import pandas as pd
import glob

files = glob.glob('Dir/**/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])
Run Code Online (Sandbox Code Playgroud)