Tho*_*mas 5 python statistics cluster-analysis timedelta pandas
如何根据时间戳查找经常一起出现的值 (userID)?
我的问题与这个问题相关:Session Generation from log fileanalysis with pandas - 然而,我的数据已经会话化,我想更进一步并找到同时登录的用户,这意味着“sessionBegin”已关闭经过。
当然,我们必须设置一个粒度,让我们假设“sessionBegin”间隔小于 30 分钟的用户同时登录。
# my data (a series with level-2 index):
                         sessionBegin
userID    sessionID
      A            1        2014-5-7 14:15
      A            2        2014-5-8 16:30
      B            3        2014-5-7 20:33
      C            4        2014-5-7 14:20
      C            5        2014-5-7 18:58
      C            5        2014-5-8 16:30
      D            6        2014-5-7 15:01
      D            6        2014-5-8 12:04
A在此示例中,userID和之间显然存在共现(统计依赖性?)C。
我正在考虑将时间戳设置为索引并使用大小为 30 分钟的滚动窗口,但我现在知道如何识别重复出现的用户 ID 集。是否不仅可以识别用户 ID 对,还可以识别更大的用户 ID 集?
| 归档时间: | 
 | 
| 查看次数: | 1837 次 | 
| 最近记录: |