小编Phi*_*hes的帖子

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据

我正在尝试使用 pandas 数据框比较两个 csv 文件。其中一个是每天都会附加数据的主表 (test_master.csv)。第二个是每日报告 (test_daily.csv)，其中包含我想要附加到 test_master.csv 的数据。

我正在从这些文件创建两个 pandas 数据框：

import pandas as pd

dfmaster = pd.read_csv(test_master.csv)
dfdaily = pd.read_csv(test_daily.csv)

Run Code Online (Sandbox Code Playgroud)

我希望将每日列表与主列表进行比较，以查看每日列表上是否存在主列表中已存在的重复行。如果是这样，我希望他们从 dfdaily 中删除重复项。然后我想将这些非重复数据写入 dfmaster。

重复数据将始终是整行。我的计划是逐行迭代工作表以进行比较。

我意识到我可以将每日数据附加到 dfmaster 数据框并使用 drop_duplicates 删除重复项。不过，我不知道如何删除 dfdaily 数据框中的重复项。我需要能够将 dfdaily 数据写回 test_daily.csv （或另一个新文件），而无需重复数据。

这是数据框的示例。

测试_master.csv

  column 1   |  column 2   |  column 3   |
+-------------+-------------+-------------+
| 1           | 2           | 3           |
| 4           | 5           | 6           |
| 7           | 8           | 9           |
| duplicate 1 | duplicate 1 | duplicate 1 …

Run Code Online (Sandbox Code Playgroud)

python csv pandas

Phi*_*hes

2018 05-02

5
推荐指数

1
解决办法

1万
查看次数

标签统计

csv ×1

pandas ×1

python ×1

如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据

标签 统计

小编Phi_hes的帖子

标签统计