jwo*_*owo 5 python csv pandas jupyter-notebook pyarrow
我正在尝试从 Jupyter Notebook (Python) 中的 .csv 文件读取数据
.csv文件大小8.5G,7000万行,30列
当我尝试读取 .csv 时,出现错误。
下面是我的代码
import pandas as pd
log = pd.read_csv('log_20100424.csv', engine = 'python')
Run Code Online (Sandbox Code Playgroud)
我也尝试过使用 pyarrow,但它不起作用。
import pandas as pd
from pyarrow import csv`
log = csv.read('log_20100424.csv').to_pandas()
Run Code Online (Sandbox Code Playgroud)
我的问题是:
如何在 Jupyter Notebook 中读取巨大(8.5G).csv 文件
还有其他方法可以读取巨大的 .csv 文件吗?
我的笔记本电脑有 8GB RAM,运行 64 位 Windows 10,i5-8265U 1.6Ghz。
小智 6
即使 Pandas 可以处理海量数据,Jupyter Notebook 也不能。要读取巨大的 CSV 文件,您需要分块进行操作。我遇到了类似的情况,Jupyter Notebook 内核会死掉,我不得不重新开始。尝试这个 -