Ask*_*ker 9 python gzip hadoop parquet
我需要打开一个 gzip 压缩文件,其中有一个包含一些数据的镶木地板文件。我在尝试打印/读取文件内的内容时遇到很多麻烦。我尝试了以下方法:
with gzip.open("myFile.parquet.gzip", "rb") as f:
data = f.read()
Run Code Online (Sandbox Code Playgroud)
这似乎不起作用,因为我收到一个错误,表明我的文件 ID 不是 gz 文件。谢谢!
Gab*_*bip 15
您可以使用模块read_parquet中的函数pandas:
pandas并pyarrow:pip install pandas pyarrow
Run Code Online (Sandbox Code Playgroud)
read_parquet它返回DataFrame:data = read_parquet("myFile.parquet.gzip")
print(data.count()) # example of operation on the returned DataFrame
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
21075 次 |
| 最近记录: |