用于在csv文件中查找重复项的脚本

Question

我有一个40 MB的csv文件,有50,000条记录.它是一个巨大的产品列表.每行有近20个字段.[Item#,UPC,Desc等]

我怎么能够,

a)查找并打印重复的行.[这个文件是一个很大的附加文件,所以我需要删除文件中包含的多个标题,所以我想知道先重复的确切行.

b)根据列查找并打印重复行.[查看UPC是否分配给多个产品]

我需要在服务器上运行命令或脚本,并且我安装了Perl和Python.即使是bash脚本或命令也适合我.

我不需要保留行的顺序.等等

我试过了,

sort largefile.csv | uniq -d

得到重复,但我没有得到预期的答案.

理想情况下,我想要bash脚本或命令,但如果任何人有任何其他建议,那也会很棒.

谢谢

Answer 1

在Perl中查找并打印重复的行:

perl -ne 'print if $SEEN{$_}++' < input-file

在Perl中查找并打印具有重复列的行 - 假设第5列中的字段用逗号分隔:

perl -F/,/ -ane 'print if $SEEN{$F[4]}++' < input-file

Answer 2

请尝试以下方法:

# Sort before using the uniq command
sort largefile.csv | sort | uniq -d

uniq是一个非常基本的命令,只报告彼此相邻的唯一性/重复项.

Answer 3

您可以使用 SQLite shell 导入 csv 文件并创建索引以更快地执行 SQL 命令。