相关疑难解决方法(0)

Pandas read_csv low_memory和dtype选项

打电话的时候

df = pd.read_csv('somefile.csv')
Run Code Online (Sandbox Code Playgroud)

我明白了:

/Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130:DtypeWarning:列(4,5,7,16)有混合类型.在导入时指定dtype选项或设置low_memory = False.

为什么该dtype选项与此相关low_memory,以及为什么会False帮助解决此问题?

python parsing numpy dataframe pandas

270
推荐指数
10
解决办法
23万
查看次数

Python进度条

当我的脚本执行可能需要一些时间的任务时,如何使用进度条?

例如,一个需要一些时间才能完成并True在完成时返回的函数.如何在执行功能期间显示进度条?

请注意,我需要实时,所以我无法弄清楚该怎么做.我需要thread这个吗?我不知道.

现在我正在执行函数时不打印任何内容,但是进度条会很好.此外,我更感兴趣的是从代码的角度来看如何做到这一点.

python

257
推荐指数
17
解决办法
35万
查看次数

python - 使用大型csv的pandas结构(迭代和chunksize)

我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:

df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)

不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用

df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)

一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件

for chunk in df:
    print chunk
Run Code Online (Sandbox Code Playgroud)

我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块

plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)

我希望我的问题不那么令人困惑

python csv bigdata dataframe pandas

22
推荐指数
3
解决办法
4万
查看次数

标签 统计

python ×3

dataframe ×2

pandas ×2

bigdata ×1

csv ×1

numpy ×1

parsing ×1