相关疑难解决方法(0)

python - 使用大型csv的pandas结构(迭代和chunksize)

我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:

df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)

不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用

df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)

一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件

for chunk in df:
    print chunk
Run Code Online (Sandbox Code Playgroud)

我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块

plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)

我希望我的问题不那么令人困惑

python csv bigdata dataframe pandas

22
推荐指数
3
解决办法
4万
查看次数

标签 统计

bigdata ×1

csv ×1

dataframe ×1

pandas ×1

python ×1