在 pandas 中使用 value_counts() 附加列

Question

在 pandas 中使用 value_counts() 附加列

Ste*_*i G 5 python append dataframe pandas

我有一个名为输出的数据框，如下所示：

   created_at
0  1/8/2017 0:00
1  1/8/2017 0:00
2  1/8/2017 0:00
3  1/8/2017 0:00
4  1/8/2017 0:00
5  1/8/2017 1:00
6  1/8/2017 2:00
7  1/8/2017 3:00

Run Code Online (Sandbox Code Playgroud)

我想计算特定时间在名为df3的数据框中出现的次数。结果如下：

1/8/2017 0:00    5
1/8/2017 1:00    1
1/8/2017 3:00    1
1/8/2017 2:00    1

Run Code Online (Sandbox Code Playgroud)

我想要的是将两个标题添加到 df3 中，称为created_at和count。

我首先做的是从输出数据框中删除重复项并对值进行排序，得到如下结果：

   created_at
0  1/8/2017 0:00
5  1/8/2017 1:00
6  1/8/2017 2:00
7  1/8/2017 3:00

Run Code Online (Sandbox Code Playgroud)

现在我在输出数据框中添加了列数，但得到的结果如下：

created_at count 0 1/8/2017 0:00 NaN 5 1/8/2017 1:00 NaN 6 1/8/2017 2:00 NaN 7 1/8/2017 3:00 NaN
Run Code Online (Sandbox Code Playgroud)
我想要实现的是一个名为result的数据框，它应该如下所示：

created_at count 0 1/8/2017 0:00 5 5 1/8/2017 1:00 1 6 1/8/2017 2:00 1 7 1/8/2017 3:00 1
Run Code Online (Sandbox Code Playgroud)
我该怎么做呢？我的代码如下：

import pandas as pd df1 = pd.read_csv(path1) df2 = pd.read_csv(path2) output = pd.merge(df1, df2, how="inner", on="created_at") df3 = output.created_at.value_counts() output = output.drop_duplicates() output = output.sort_values(by=['created_at']) output['count'] = df3 print(output,'\n\n')
Run Code Online (Sandbox Code Playgroud)
任何和所有的帮助将不胜感激

谢谢

Answer 1

cs9*_*s95 5

使用rename_axisreset_index调用后与value_counts。

df.created_at.value_counts().rename_axis('created_at').reset_index(name='count')

      created_at  count
0  1/8/2017 0:00      5
1  1/8/2017 2:00      1
2  1/8/2017 1:00      1
3  1/8/2017 3:00      1

Run Code Online (Sandbox Code Playgroud)

或者，使用groupby+ agg：

df.groupby('created_at').created_at.agg([('count', 'count')]).reset_index()

      created_at  count
0  1/8/2017 0:00      5
1  1/8/2017 1:00      1
2  1/8/2017 2:00      1
3  1/8/2017 3:00      1

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，8 月前
查看次数：	2757 次
最近记录：	7 年，5 月前