Ano*_*son 7 python pandas parquet fastparquet pyarrow
我现在正在为此感到头疼。我是这个parquet
文件的新手,我遇到了很多问题。
OSError: Passed non-file path: \datasets\proj\train\train.parquet
每次我尝试从中创建一个时,都会抛出一个错误df
。
我试过这个:
pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()
和
od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')
我还更改了数据集所在驱动器的驱动器号,这是一样的!
所有引擎都一样。
请帮忙!
这可能是 Arrow 文件路径处理的问题。您可以改为传入一个已经打开的文件:
import pandas as pd
with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
df = pd.read_parquet(f, engine='pyarrow')
Run Code Online (Sandbox Code Playgroud)