我正在分析Apache日志文件,我已将其导入到pandas数据帧中.
'65 .55.52.118 - - [30/May/2013:06:58:52 -0600]"GET /detailedAddVen.php?refId=7954&uId=2802 HTTP/1.1"200 4514" - ""Mozilla/5.0(兼容; bingbot) /2.0; + http://www.bing.com/bingbot.htm)"'
我的数据帧:

我想根据IP,代理和时差将其分组到会话中(如果持续时间大于30分钟则应该是新会话).
通过IP和Agent很容易对数据帧进行分组,但是如何检查这个时间差?希望问题很清楚.
sessions = df.groupby(['IP', 'Agent']).size()
Run Code Online (Sandbox Code Playgroud)
更新:df.index如下:
<class 'pandas.tseries.index.DatetimeIndex'>
[2013-05-30 06:00:41, ..., 2013-05-30 22:29:14]
Length: 31975, Freq: None, Timezone: None
Run Code Online (Sandbox Code Playgroud)