在 Jupyter Notebook 中读取巨大的 .csv 文件

jwo*_*owo 5 python csv pandas jupyter-notebook pyarrow

我正在尝试从 Jupyter Notebook (Python) 中的 .csv 文件读取数据

.csv文件大小8.5G,7000万行,30列

当我尝试读取 .csv 时,出现错误。

下面是我的代码

import pandas as pd

log = pd.read_csv('log_20100424.csv', engine = 'python')
Run Code Online (Sandbox Code Playgroud)

我也尝试过使用 pyarrow,但它不起作用。

import pandas as pd
from pyarrow import csv`

log = csv.read('log_20100424.csv').to_pandas()
Run Code Online (Sandbox Code Playgroud)

我的问题是:

如何在 Jupyter Notebook 中读取巨大(8.5G).csv 文件

还有其他方法可以读取巨大的 .csv 文件吗?

我的笔记本电脑有 8GB RAM,运行 64 位 Windows 10,i5-8265U 1.6Ghz。

小智 6

即使 Pandas 可以处理海量数据,Jupyter Notebook 也不能。要读取巨大的 CSV 文件,您需要分块进行操作。我遇到了类似的情况,Jupyter Notebook 内核会死掉,我不得不重新开始。尝试这个 -Pandas 错误 Jupyter Notebook