我正在尝试使用 pandas 数据框比较两个 csv 文件。其中一个是每天都会附加数据的主表 (test_master.csv)。第二个是每日报告 (test_daily.csv),其中包含我想要附加到 test_master.csv 的数据。
我正在从这些文件创建两个 pandas 数据框:
import pandas as pd
dfmaster = pd.read_csv(test_master.csv)
dfdaily = pd.read_csv(test_daily.csv)
Run Code Online (Sandbox Code Playgroud)
我希望将每日列表与主列表进行比较,以查看每日列表上是否存在主列表中已存在的重复行。如果是这样,我希望他们从 dfdaily 中删除重复项。然后我想将这些非重复数据写入 dfmaster。
重复数据将始终是整行。我的计划是逐行迭代工作表以进行比较。
我意识到我可以将每日数据附加到 dfmaster 数据框并使用 drop_duplicates 删除重复项。不过,我不知道如何删除 dfdaily 数据框中的重复项。我需要能够将 dfdaily 数据写回 test_daily.csv (或另一个新文件),而无需重复数据。
这是数据框的示例。
测试_master.csv
column 1 | column 2 | column 3 |
+-------------+-------------+-------------+
| 1 | 2 | 3 |
| 4 | 5 | 6 |
| 7 | 8 | 9 |
| duplicate 1 | duplicate 1 | duplicate 1 …Run Code Online (Sandbox Code Playgroud)