我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:
df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)
不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用
df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)
一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件
for chunk in df:
print chunk
Run Code Online (Sandbox Code Playgroud)
我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块
plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)
我希望我的问题不那么令人困惑