基于时间戳的对象聚类（在 Pandas 中）

Tho*_*mas 5 python statistics cluster-analysis timedelta pandas

如何根据时间戳查找经常一起出现的值 (userID)？

我的问题与这个问题相关：Session Generation from log fileanalysis with pandas - 然而，我的数据已经会话化，我想更进一步并找到同时登录的用户，这意味着“sessionBegin”已关闭经过。

当然，我们必须设置一个粒度，让我们假设“sessionBegin”间隔小于 30 分钟的用户同时登录。

# my data (a series with level-2 index):

                         sessionBegin
userID    sessionID

      A            1        2014-5-7 14:15
      A            2        2014-5-8 16:30
      B            3        2014-5-7 20:33
      C            4        2014-5-7 14:20
      C            5        2014-5-7 18:58
      C            5        2014-5-8 16:30
      D            6        2014-5-7 15:01
      D            6        2014-5-8 12:04

Run Code Online (Sandbox Code Playgroud)

A在此示例中，userID和之间显然存在共现（统计依赖性？）C。

我正在考虑将时间戳设置为索引并使用大小为 30 分钟的滚动窗口，但我现在知道如何识别重复出现的用户 ID 集。是否不仅可以识别用户 ID 对，还可以识别更大的用户 ID 集？

归档时间：	10 年，7 月前
查看次数：	1837 次
最近记录：	10 年，7 月前