相关疑难解决方法(0)

使用groupby在大型数据帧上有效地进行Fillna（正向填充）？

在大型数据框中转发填充信息的最有效方法是什么？

我合并了每日文件中约600万行x 50列的维度数据。我删除了重复项，现在有大约200,000行唯一数据，这些数据可以跟踪其中一个维度发生的任何更改。

不幸的是，一些原始数据被弄乱了并且具有空值。如何有效地使用以前的值填充空数据？

id       start_date   end_date    is_current  location  dimensions...
xyz987   2016-03-11   2016-04-02  Expired       CA      lots_of_stuff
xyz987   2016-04-03   2016-04-21  Expired       NaN     lots_of_stuff
xyz987   2016-04-22          NaN  Current       CA      lots_of_stuff

Run Code Online (Sandbox Code Playgroud)

这就是数据的基本形状。问题是某些尺寸不应为空白（这是原始数据中的错误）。一个示例是，对于前一行，该行的位置已填写，但在下一行中为空白。我知道该位置没有更改，但由于它是空白，因此它正在将其捕获为唯一行。

我假设我需要使用ID字段进行分组。这是正确的语法吗？我是否需要列出数据框中的所有列？

cols = [list of all of the columns in the dataframe]
wfm.groupby(['id'])[cols].fillna(method='ffill', inplace=True)

Run Code Online (Sandbox Code Playgroud)

在200,000行数据框中，大约有75,000个唯一ID。我尝试做一个

df.fillna(method='ffill', inplace=True)

Run Code Online (Sandbox Code Playgroud)

但是我需要根据ID进行操作，并且我想确保自己的工作效率尽可能高（我的计算机花了很长时间读取所有这些文件并将其合并到内存中）。

pandas

tre*_*nch

2016 04-27

4
推荐指数

2
解决办法

4670
查看次数

标签统计

pandas ×1

使用groupby在大型数据帧上有效地进行Fillna（正向填充）？

标签 统计

标签统计