小编Phi*_*hes的帖子

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据

我正在尝试使用 pandas 数据框比较两个 csv 文件。其中一个是每天都会附加数据的主表 (test_master.csv)。第二个是每日报告 (test_daily.csv),其中包含我想要附加到 test_master.csv 的数据。

我正在从这些文件创建两个 pandas 数据框:

import pandas as pd

dfmaster = pd.read_csv(test_master.csv)
dfdaily = pd.read_csv(test_daily.csv)
Run Code Online (Sandbox Code Playgroud)

我希望将每日列表与主列表进行比较,以查看每日列表上是否存在主列表中已存在的重复行。如果是这样,我希望他们从 dfdaily 中删除重复项。然后我想将这些非重复数据写入 dfmaster。

重复数据将始终是整行。我的计划是逐行迭代工作表以进行比较。

我意识到我可以将每日数据附加到 dfmaster 数据框并使用 drop_duplicates 删除重复项。不过,我不知道如何删除 dfdaily 数据框中的重复项。我需要能够将 dfdaily 数据写回 test_daily.csv (或另一个新文件),而无需重复数据。

这是数据框的示例。

测试_master.csv

  column 1   |  column 2   |  column 3   |
+-------------+-------------+-------------+
| 1           | 2           | 3           |
| 4           | 5           | 6           |
| 7           | 8           | 9           |
| duplicate 1 | duplicate 1 | duplicate 1 …
Run Code Online (Sandbox Code Playgroud)

python csv pandas

5
推荐指数
1
解决办法
1万
查看次数

标签 统计

csv ×1

pandas ×1

python ×1