我在 Pandas 数据框中有一列,其中包含大量标签列表:
>>> data['SPLIT'].head(10)
0 [33.23, 88.72, 38.93, E931.7, V09.0, 041.11, 5...
1 [99.04, 38.06, 39.57, 00.91, 55.69, V15.82, 27...
2 [96.04, 96.72, 401.9, 276.5, 584.9, 428.0, 507...
3 [96.6, 99.15, 99.83, V29.0, 765.15, 765.25, 77...
4 [96.71, 96.04, 54.12, 99.60, 38.93, 99.15, 53....
5 [88.72, 37.61, 39.61, 36.15, 36.12, 272.0, 401...
6 [38.93, 88.72, 37.31, 272.4, 719.46, 722.0, 31...
7 [88.72, 39.61, 35.71, 272.4, V12.59, 458.29, 7...
8 [97.44, 99.04, 88.56, 37.23, 39.95, 38.95, 00....
9 [00.14, 89.61, 39.95, E878.8, 244.9, 443.9, 18...
Run Code Online (Sandbox Code Playgroud)
我想要做的是遍历所有这些列表以找到每个值的总出现次数,以便我可以找到 50 个最常出现的值。
这是我使用的代码运行速度非常慢:
test = pd.Series(sum([item for item in data.SPLIT], [])).value_counts()
Run Code Online (Sandbox Code Playgroud)
我试图在外面写一个函数来循环遍历列表并找到计数,但这也很慢。
有什么方法可以修改这些数据或在 Pandas 中使用性能与类似的函数df.groupby.count()吗?
我确实在 google 和 stackoverflow 上搜索了半个小时,但没有一个答案具有更好的性能。我一直在尝试找出一种方法来展平列表或找到一种以更快的速度映射计数的方法(迭代 500k 行,每个列表的长度各不相同,有些可以长达 512,其他短如 2)。
使用带有扁平化的列表理解sum:
test = pd.Series([x for item in data.SPLIT for x in item]).value_counts()
Run Code Online (Sandbox Code Playgroud)
或通过chain.from_iterable以下方式展平:
from itertools import chain
test = pd.Series(list(chain.from_iterable(data.SPLIT))).value_counts()
Run Code Online (Sandbox Code Playgroud)
或者也使用collections.Counter:
from itertools import chain
from collections import Counter
test = pd.Series(Counter(chain.from_iterable(data.SPLIT)))
Run Code Online (Sandbox Code Playgroud)
或者:
import functools, operator
test = pd.Series(functools.reduce(operator.iconcat, data.SPLIT, [])).value_counts()
Run Code Online (Sandbox Code Playgroud)
纯熊猫解决方案:
test = pd.DataFrame(data.SPLIT.values.tolist()).stack().value_counts()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2223 次 |
| 最近记录: |