打电话的时候
df = pd.read_csv('somefile.csv')
Run Code Online (Sandbox Code Playgroud)
我明白了:
/Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130:DtypeWarning:列(4,5,7,16)有混合类型.在导入时指定dtype选项或设置low_memory = False.
为什么该dtype选项与此相关low_memory,以及为什么会False帮助解决此问题?
当我的脚本执行可能需要一些时间的任务时,如何使用进度条?
例如,一个需要一些时间才能完成并True在完成时返回的函数.如何在执行功能期间显示进度条?
请注意,我需要实时,所以我无法弄清楚该怎么做.我需要thread这个吗?我不知道.
现在我正在执行函数时不打印任何内容,但是进度条会很好.此外,我更感兴趣的是从代码的角度来看如何做到这一点.
我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:
df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)
不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用
df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)
一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件
for chunk in df:
print chunk
Run Code Online (Sandbox Code Playgroud)
我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块
plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)
我希望我的问题不那么令人困惑