基于时间戳的对象聚类(在 Pandas 中)

Tho*_*mas 5 python statistics cluster-analysis timedelta pandas

如何根据时间戳查找经常一起出现的值 (userID)?

我的问题与这个问题相关:Session Generation from log fileanalysis with pandas - 然而,我的数据已经会话化,我想更进一步并找到同时登录的用户,这意味着“sessionBegin”已关闭经过。

当然,我们必须设置一个粒度,让我们假设“sessionBegin”间隔小于 30 分钟的用户同时登录。

# my data (a series with level-2 index):

                         sessionBegin
userID    sessionID

      A            1        2014-5-7 14:15
      A            2        2014-5-8 16:30
      B            3        2014-5-7 20:33
      C            4        2014-5-7 14:20
      C            5        2014-5-7 18:58
      C            5        2014-5-8 16:30
      D            6        2014-5-7 15:01
      D            6        2014-5-8 12:04
Run Code Online (Sandbox Code Playgroud)

A在此示例中,userID和之间显然存在共现(统计依赖性?)C

我正在考虑将时间戳设置为索引并使用大小为 30 分钟的滚动窗口,但我现在知道如何识别重复出现的用户 ID 集。是否不仅可以识别用户 ID 对,还可以识别更大的用户 ID 集?