绘制pandas中每个唯一值计数的密钥计数

mon*_*kut 13 python plot pandas

我有一组数据,我想从中绘制每个唯一ID 数的键 (x = unique_id_count,y = key_count),我正在尝试学习如何利用pandas.

在这种情况下:

unique_ids 1 =密钥数2

unique_ids 2 =密钥数1

from pandas import *
key_items = ("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c")
id_data = ("X", "X", "X", "X", "X", "X", "X", "Y", "Y", "Y", "X", "X", "X")

df = DataFrame({'keys': key_items, 'ids': id_data})
Run Code Online (Sandbox Code Playgroud)

我已经设法通过从数据框中提取数据并重新构建数据并重建新数据帧,将数据转换为我想要的数据.在这种情况下,最好不要在没有pandas的python中完成所有操作......

unique_values = defaultdict(list)
for items in df.itertuples(index=False):
    key = items[1]
    v = items[0]
    unique_values[key].append(v)

unique_values_count = {}
for k, values in unique_values.iteritems():
    unique_values_count[k] = [len(set(values))]

# reformat for plotting
key_col = ("a", "b", "c")
id_col = [unique_values_count[k][0] for k in key_col]



df2 = DataFrame({"keys":key_col, "unique_id_count": id_col})
df2.groupby("unique_id_count").size().plot(kind="bar")
Run Code Online (Sandbox Code Playgroud)

有没有更好的方法直接使用初始数据框来做到这一点?

Azi*_*lto 31

怎么样直接使用 value_counts()

pd.value_counts(df['ids']).plot.bar()
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

  • 给出错误 `<lambda>() 缺少 2 个必需的位置参数:'x' 和 'height'`,对我有用的修复是 `df['ids'].value_counts().plot(kind='bar')` , 熊猫版本 0.22 (2认同)

HYR*_*YRY 23

s = df.groupby("keys").ids.agg(lambda x:len(x.unique()))
pd.value_counts(s).plot(kind="bar")
Run Code Online (Sandbox Code Playgroud)

  • 这可以简化一下:`s`可以在没有lambda的情况下使用pandas`nunique`函数计算如下:`s = df.groupby("keys").agg(Series.nunique)` (2认同)