小编arc*_*ina的帖子

如果两列中的记录未在数据集中至少出现两次,请在熊猫中删除行

我有一个包含日期和公司名称的数据集。我只想保留行,以使公司名称和日期的组合至少出现两次在数据集中。

为了说明问题,让我们假设我具有以下数据框:

df1 = pd.DataFrame(np.array([['28/02/2017', 'Apple'], ['28/02/2017', 'Apple'], ['31/03/2017', 'Apple'],['28/02/2017', 'IBM'],['28/02/2017', 'WalMart'],
['28/02/2017', 'WalMart'],['03/07/2017', 'WalMart']]), columns=['date','keyword'])
Run Code Online (Sandbox Code Playgroud)

我想要的输出将是:

df2 = pd.DataFrame(np.array([['28/02/2017', 'Apple'], ['28/02/2017', 'Apple'],
                             ['28/02/2017', 'WalMart'],
                             ['28/02/2017', 'WalMart']]), columns=['date', 'keyword'])

Run Code Online (Sandbox Code Playgroud)

我会知道如何根据两列中的条件删除行,但是我无法弄清楚如何根据两个值的组合出现在数据集中的次数来删除行。

谁能提供一些见识?

python dataframe pandas

5
推荐指数
1
解决办法
125
查看次数

标签 统计

dataframe ×1

pandas ×1

python ×1