相关疑难解决方法(0)

计算值在数据帧列中出现的频率

我有一个数据集

|category|
cat a
cat b
cat a
Run Code Online (Sandbox Code Playgroud)

我希望能够返回类似的东西(显示独特的值和频率)

category | freq |
cat a       2
cat b       1
Run Code Online (Sandbox Code Playgroud)

python pandas

251
推荐指数
10
解决办法
52万
查看次数

Pandas groupby.size与series.value_counts vs collections.Counter有多个系列

有很多问题(1,2,3)处理的计数值单一系列.

但是,关于计算两个或更多系列组合的最佳方法的问题较少.解决方案呈现(1,2),但是,当和为什么要使用的每个没有讨论.

以下是三种潜在方法的基准测试.我有两个具体问题:

  1. 为什么grouper效率更高count?我预计count它会更高效,因为它在C中实现.grouper即使列数从2增加到4 ,优越的性能仍然存在.
  2. 为什么这么多value_counter表现不佳grouper?这是由于从列表构建列表或系列的成本吗?

我理解输出是不同的,这也应该告知选择.例如,使用连续numpy数组与字典理解相比,按计数过滤更有效:

x, z = grouper(df), count(df)
%timeit x[x.values > 10]                        # 749µs
%timeit {k: v for k, v in z.items() if v > 10}  # 9.37ms
Run Code Online (Sandbox Code Playgroud)

然而,我的问题的重点是在一系列与字典中建立可比较结果的表现.我的C知识是有限的,但我会感谢任何可以指出这些方法的基础逻辑的答案.

基准代码

import pandas as pd
import numpy as np
from collections import Counter

np.random.seed(0)

m, n = …
Run Code Online (Sandbox Code Playgroud)

python counter dictionary dataframe pandas

30
推荐指数
1
解决办法
2975
查看次数

数不。数据帧熊猫中的特定值

我是数据分析方面的新手。我正在尝试使用 python 分析数据集。在此处输入图片说明

  1. 我想数不。幸存列中的 1s
  2. 性别栏的男、女人数

PassengerId Survived Pclass Sex
0 1 0 3 male 1 2 1 1 female 2 3 1 3 male 3 4 1 1 female 4 5 0 3 male

我试过 groupby() 但它给出了错误。

In[88] titanic_data.groupby('Survived') Out[88] <pandas.core.groupby.DataFrameGroupBy object at 0x000000000BFFE588>

请提出解决方案

python numpy pandas data-science

-2
推荐指数
1
解决办法
3376
查看次数

标签 统计

pandas ×3

python ×3

counter ×1

data-science ×1

dataframe ×1

dictionary ×1

numpy ×1