Use*_*d82 4 python dataframe pandas google-cloud-storage parquet
我需要使用托管在谷歌云存储桶上的镶木地板文件使用 pandas 库创建数据框架。我搜索了文档和在线示例,但似乎不知道如何进行。
您能帮助我指出正确的方向吗?
我不是在寻找解决方案,而是在寻找一个可以查找更多信息的位置,以便我可以设计自己的解决方案。
先感谢您。
小智 5
import gcsfs
from pyarrow import parquet
url = "gs://bucket_name/.../folder_name"
fs = gcsfs.GCSFileSystem()
// Assuming your parquet files start with `part-` prefix
files = ["gs://" + path for path in fs.glob(url + "/part-*")]
ds = parquet.ParquetDataset(files, filesystem=fs)
df = ds.read().to_pandas()
Run Code Online (Sandbox Code Playgroud)