小编Ste*_*mas的帖子

Pandas for Python,分组

我有一个数据集,每个时间戳包含多个元组 - 每个都有一个计数.每个时间戳可能存在不同的元组.我想在5分钟的箱子里将这些组合在一起,并为每个独特的元组添加计数.使用Pandas group-by有一个很好的干净方法吗?

它们具有以下形式:((u'67.163.47.231',u'8.27.82.254',50186,80,6,1377565195000),2)

这是一个列表,有一个6元组(最后一个条目是时间戳),然后计数.

每个时间戳都会有一个5元组的集合:

(5元组),t-time-stamp,count,例如(仅用于一个时间戳)

[((u'71.57.43.240', u'8.27.82.254', 33108, 80, 6, 1377565195000), 1),
 ((u'67.163.47.231', u'8.27.82.254', 50186, 80, 6, 1377565195000), 2),
 ((u'8.27.82.254', u'98.206.29.242', 25159, 80, 6, 1377565195000), 1),
 ((u'71.179.102.253', u'8.27.82.254', 50958, 80, 6, 1377565195000), 1)]

In [220]: df = DataFrame ( { 'key1' : [ (u'71.57.43.240', u'8.27.82.254', 33108, 80, 6), (u'67.163.47.231', u'8.27.82.254', 50186, 80, 6) ], 'data1' : np.array((1,2)), 'data2': np.array((1377565195000,1377565195000))})

In [226]: df
Out[226]: 
   data1          data2                                        key1
0      1  1377565195000   (71.57.43.240, 8.27.82.254, 33108, 80, 6)
1      2  1377565195000 …
Run Code Online (Sandbox Code Playgroud)

pandas

6
推荐指数
1
解决办法
978
查看次数

标签 统计

pandas ×1