相关疑难解决方法(0)

使用groupby在大型数据帧上有效地进行Fillna(正向填充)?

在大型数据框中转发填充信息的最有效方法是什么?

我合并了每日文件中约600万行x 50列的维度数据。我删除了重复项,现在有大约200,000行唯一数据,这些数据可以跟踪其中一个维度发生的任何更改。

不幸的是,一些原始数据被弄乱了并且具有空值。如何有效地使用以前的值填充空数据?

id       start_date   end_date    is_current  location  dimensions...
xyz987   2016-03-11   2016-04-02  Expired       CA      lots_of_stuff
xyz987   2016-04-03   2016-04-21  Expired       NaN     lots_of_stuff
xyz987   2016-04-22          NaN  Current       CA      lots_of_stuff
Run Code Online (Sandbox Code Playgroud)

这就是数据的基本形状。问题是某些尺寸不应为空白(这是原始数据中的错误)。一个示例是,对于前一行,该行的位置已填写,但在下一行中为空白。我知道该位置没有更改,但由于它是空白,因此它正在将其捕获为唯一行。

我假设我需要使用ID字段进行分组。这是正确的语法吗?我是否需要列出数据框中的所有列?

cols = [list of all of the columns in the dataframe]
wfm.groupby(['id'])[cols].fillna(method='ffill', inplace=True)
Run Code Online (Sandbox Code Playgroud)

在200,000行数据框中,大约有75,000个唯一ID。我尝试做一个

df.fillna(method='ffill', inplace=True)
Run Code Online (Sandbox Code Playgroud)

但是我需要根据ID进行操作,并且我想确保自己的工作效率尽可能高(我的计算机花了很长时间读取所有这些文件并将其合并到内存中)。

pandas

4
推荐指数
2
解决办法
4670
查看次数

标签 统计

pandas ×1