我有一个包含大量行的数据集.一些值是NaN,如下所示:
In [91]: df
Out[91]:
1 3 1 1 1
1 3 1 1 1
2 3 1 1 1
1 1 NaN NaN NaN
1 3 1 1 1
1 1 1 1 1
Run Code Online (Sandbox Code Playgroud)
我想计算每个字符串中的NaN值的数量,它将是这样的:
In [91]: list = <somecode with df>
In [92]: list
Out[91]:
[0,
0,
0,
3,
0,
0]
Run Code Online (Sandbox Code Playgroud)
最好和最快的方法是什么?
有一个包含字符串的大型数据集.我只是想通过read_fwf使用widths打开它,如下所示:
widths = [3, 7, ..., 9, 7]
tp = pandas.read_fwf(file, widths=widths, header=None)
Run Code Online (Sandbox Code Playgroud)
它可以帮助我标记数据,但系统崩溃(使用nrows = 20000).然后我决定用chunk(例如20000行)来做,像这样:
cs = 20000
for chunk in pd.read_fwf(file, widths=widths, header=None, chunksize=ch)
...: <some code using chunk>
Run Code Online (Sandbox Code Playgroud)
我的问题是:在对块进行一些处理(标记行,删除或修改列)之后,我应该在循环中做什么来合并(连接?)块.csv文件?还是有另一种方式?