从大型 csv 文件中删除重复项

Question

我有一个大约 2400 万行的大型 csv，我想缩小大小。

这是 csv 的一些预览：

我想删除具有相同 CIK 和 IP 的行，因为我有一堆这些文件并且它们占用了大量空间，所以我想制定一种有效的方法来删除重复项。

我已经测试了 CIK 有多少重复项，有些重复项超过 100k，这就是为什么我想删除这些重复项。

我尝试过一些东西，但在大多数情况下都失败了，因为 csv 的大小。

Answer 1

另一种快速方法是awk从命令行运行：

awk -F, '!x[$1,$5]++' file.csv > file_uniq.csv

其中file.csv是文件名，并且file_uniq.csv是您想要保存重复数据删除记录的位置（$1 和 $5 是列号，1 表示ip，5 表示cik）

PS 如果您使用的是 Linux/Mac，则应该有awk，但在 Windows 上可能需要单独下载