我正在尝试上传一个250MB的csv文件.基本上有400万行和6列时间序列数据(1分钟).通常的程序是:
location = r'C:\Users\Name\Folder_1\Folder_2\file.csv'
df = pd.read_csv(location)
Run Code Online (Sandbox Code Playgroud)
这个过程大约需要20分钟!!! 非常初步我已经探索了以下选项
我想知道是否有人比较了这些选项(或更多)并且有明显的赢家.如果没有人回答,将来我会发布我的结果.我现在没有时间.
我有一个很大的 xlsx Excel 文件(56mb,550k 行),我试图从中读取前 10 行。我尝试使用xlrd,openpyxl和pyexcel-xlsx,但它们总是需要超过 35 分钟,因为它将整个文件加载到内存中。
我解压了 Excel 文件,发现xml其中包含我需要的数据的解压为 800mb。
当您在 Excel 中加载相同的文件时,需要 30 秒。我想知道为什么在 Python 中需要那么多时间?