如何在 Python 中读取 gzipped parquet 文件

Ask*_*ker 9 python gzip hadoop parquet

我需要打开一个 gzip 压缩文件,其中有一个包含一些数据的镶木地板文件。我在尝试打印/读取文件内的内容时遇到很多麻烦。我尝试了以下方法:

with gzip.open("myFile.parquet.gzip", "rb") as f:
    data = f.read()
Run Code Online (Sandbox Code Playgroud)

这似乎不起作用,因为我收到一个错误,表明我的文件 ID 不是 gz 文件。谢谢!

Gab*_*bip 15

您可以使用模块read_parquet中的函数pandas

  1. 安装pandaspyarrow
pip install pandas pyarrow
Run Code Online (Sandbox Code Playgroud)
  1. 使用read_parquet它返回DataFrame
data = read_parquet("myFile.parquet.gzip")
print(data.count()) # example of operation on the returned DataFrame
Run Code Online (Sandbox Code Playgroud)