Pandas：根据阈值将数据帧拆分为多个数据帧

Question

Pandas：根据阈值将数据帧拆分为多个数据帧

我有这样的数据框

                 Transport  Elapsed_Time     gap_time        gap_minutes 
0                  taxi         556.0   0 days 00:00:02          0.0 
1                  walk          95.0   0 days 00:53:34         53.0 
2                  taxi          44.0   0 days 02:02:00        122.0 
3                  taxi           2.0   0 days 17:05:56       1025.0 
4                  walk          73.0   0 days 00:14:31         14.0 
5                  boat          10.0   0 days 00:02:16          2.0 
6                  walk          34.0   0 days 00:00:42          0.0 
7                  boat           8.0   0 days 00:00:54          0.0 
8                 walk          37.0   0 days 00:07:25          7.0 
9                 boat          30.0   0 days 00:00:23          0.0 
10                 walk         105.0   0 days 00:04:59          4.0
11                 taxi          14.0   0 days 00:01:06          1.0
12                 walk          31.0   0 days 18:01:32       1081.0
13                 taxi          10.0   0 days 01:06:11         66.0
14                train          41.0   0 days 16:59:25       1019.0
15                 walk           3.0   0 days 00:02:28          2.0
16                 taxi         137.0 276 days 23:49:58       1429.0

Run Code Online (Sandbox Code Playgroud)

我喜欢根据gap_minutes>20 的阈值将数据帧划分为多个数据帧

结果数据帧看起来像这样

df1：

0 taxi 556.0 0 days 00:00:02 0.0 1 walk 95.0 0 days 00:53:34 53.0
Run Code Online (Sandbox Code Playgroud)
df2：

2 taxi 44.0 0 days 02:02:00 122.0
Run Code Online (Sandbox Code Playgroud)
df3：

3 taxi 2.0 0 days 17:05:56 1025.0
Run Code Online (Sandbox Code Playgroud)
df4：

4 walk 73.0 0 days 00:14:31 14.0 5 boat 10.0 0 days 00:02:16 2.0 6 walk 34.0 0 days 00:00:42 0.0 7 boat 8.0 0 days 00:00:54 0.0 8 walk 37.0 0 days 00:07:25 7.0 9 boat 30.0 0 days 00:00:23 0.0 10 walk 105.0 0 days 00:04:59 4.0 11 taxi 14.0 0 days 00:01:06 1.0 12 walk 31.0 0 days 18:01:32 1081.0
Run Code Online (Sandbox Code Playgroud)
df5：

13 taxi 10.0 0 days 01:06:11 66.0
Run Code Online (Sandbox Code Playgroud)
df6：

14 train 41.0 0 days 16:59:25 1019.0
Run Code Online (Sandbox Code Playgroud)
df7：

15 walk 3.0 0 days 00:02:28 2.0 16 taxi 137.0 276 days 23:49:58 1429.0
Run Code Online (Sandbox Code Playgroud)

Answer 1

Sco*_*ton 5

让我们试试这个，在这种情况下，'listofdf' 是一个键为 1 到 7 的数据帧字典。首先让我们确保间隙时间是 pd.TimeDelta dtype，然后分组：

df.gap_time = pd.to_timedelta(df.gap_time)
g = df.groupby((df.gap_time / pd.Timedelta('20 minutes')).ge(1)[::-1].cumsum())
for n,g in g:
    listofdf[n] = g

Run Code Online (Sandbox Code Playgroud)

输出：

print(listofdf[1])

       Transport  Elapsed_Time          gap_time  gap_minutes
15      walk           3.0   0 days 00:02:28          2.0
16      taxi         137.0 276 days 23:49:58       1429.0

print(listofdf[2])

   Transport  Elapsed_Time gap_time  gap_minutes
14     train          41.0 16:59:25       1019.0

Run Code Online (Sandbox Code Playgroud)

. . .

print(listofdf[7])

  Transport  Elapsed_Time gap_time  gap_minutes
0      taxi         556.0 00:00:02          0.0
1      walk          95.0 00:53:34         53.0

Run Code Online (Sandbox Code Playgroud)

这个怎么运作：

弄清楚它是如何工作的最好方法是将有问题的语句分成几部分。第一的，

我们来算出哪些区间大于20，那么如果除以gap_time20分钟，得到一个大于等于1的值，那么我们就知道需要开始一个新的组了。

(df.gap_time / pd.Timedelta('20 minutes')).ge(1)

Run Code Online (Sandbox Code Playgroud)

输出：

0     False
1      True
2      True
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13     True
14     True
15    False
16     True
Name: gap_time, dtype: bool

Run Code Online (Sandbox Code Playgroud)

这是技巧部分，现在，我想将所有“假”记录与以下“真”记录分组。看看gap_time你的逻辑。为此，我们需要颠倒记录的顺序，然后使用cumsum. Cumsum 基本上为每个真实记录递增。因此，true 等于 1，则所有错误记录都为 1，直到下一个真实记录变为 2，所有错误记录都为 2，直到下一个真实记录。

(df.gap_time / pd.Timedelta('20 minutes')).ge(1)[::-1].cumsum()

Run Code Online (Sandbox Code Playgroud)

输出：

16    1
15    1
14    2
13    3
12    4
11    4
10    4
9     4
8     4
7     4
6     4
5     4
4     4
3     5
2     6
1     7
0     7
Name: gap_time, dtype: int64

Run Code Online (Sandbox Code Playgroud)

使用这个新系列作为将数据帧分组为块的一种方式，因此我们使用 g = groupby 上面的系列。

归档时间：	8 年，6 月前
查看次数：	900 次
最近记录：	8 年，6 月前