从文件中查找唯一值

Question

我有一个6 MB大小的csv文件.我想按列A和列C过滤数据,以便我需要删除任何重复项.什么是最简单的方法,以及如何做到这一点.很感谢任何形式的帮助.

Answer 1

cat foo.csv | cut -f2 -d , | sort | uniq

它将为您提供第二列的独特ID

cat foo.csv | cut -f1 -d , | sort | uniq

它将为您提供第一列的独特ID

-f < number > : column number

-d  < space >< delimiter > : file delimiter

Answer 2

使用 cut 或 awk 来选择字段。排序和 uniq 以删除重复项。例如

awk -F"," '{print $1}' A.csv|sort|uniq