如何从谷歌存储中保存的镶木地板文件创建 pandas 数据框

Use*_*d82 4 python dataframe pandas google-cloud-storage parquet

我需要使用托管在谷歌云存储桶上的镶木地板文件使用 pandas 库创建数据框架。我搜索了文档和在线示例,但似乎不知道如何进行。

您能帮助我指出正确的方向吗?

我不是在寻找解决方案,而是在寻找一个可以查找更多信息的位置,以便我可以设计自己的解决方案。

先感谢您。

小智 5

您可以使用gcsfspyarrow库来执行此操作。

import gcsfs
from pyarrow import parquet

url = "gs://bucket_name/.../folder_name"
fs = gcsfs.GCSFileSystem()

// Assuming your parquet files start with `part-` prefix
files = ["gs://" + path for path in fs.glob(url + "/part-*")]
ds = parquet.ParquetDataset(files, filesystem=fs)
df = ds.read().to_pandas()
Run Code Online (Sandbox Code Playgroud)