我有一个数据集,如下所示:
Name | Time | App
---------------------------------
Mike 2019-05-10 21:10 chrome.exe
Mike 2019-05-10 21:10 chrome.exe
Mike 2019-05-10 21:12 chrome.exe
John 2019-05-10 18:09 chrome.exe
John 2019-05-10 18:25 chrome.exe
Run Code Online (Sandbox Code Playgroud)
我的目标是:我想基于同一时间或每隔5分钟为每个用户组合相同的应用程序,并且仅保存最早的时间戳。
预期产量:
Name | Time | App
---------------------------------
Mike 2019-05-10 21:10 chrome.exe
John 2019-05-10 18:09 chrome.exe
John 2019-05-10 18:25 chrome.exe
Run Code Online (Sandbox Code Playgroud)
迈克跑了chrome.exe3次,但间隔小于等于5,所以我们想算一次。虽然John跑了chrome.exe2次但间隔> 5分钟,所以它们算作单独的跑步。我试过了merge,merge_asof用pd.timedelta。