awk：删除重复项并创建一个新的csv文件

Question

awk：删除重复项并创建一个新的csv文件

我有以下CSV文件：

1393036,293296,68,59,Mithridates,ny,io
10155431,14595886,1807,135860,Riemogerz,ny,id
10767895,5749707,2402,1716,Nickispeaki,ny,uk
1536088,6390442,1301,109160,Ds02006,ny,ru
353,291765,434,434,Lar,ny,en,en-N
19332,7401441,296,352647,WikiDreamer,ny,fr
7142,7221255,298,78928,WikiDreamer Bot,ny,fi
417258,1507888,409,7709,Dmitri Lytov,ny,ru
7198454,15101351,5604,853415,Ffffnm,cdo,zh
1536088,6390442,1301,109160,Ds02006,ny,ru
353,291765,434,434,Lar,ny,en

Run Code Online (Sandbox Code Playgroud)

我想根据第一列的值删除重复项。如果有多个相同值的记录，我只想在新文件中保留一个：

我从以下开始，它实际上是找到重复项，但我想创建一个新文件，而不仅仅是打印：

sort input.csv | awk 'NR == 1 {p=$1; next} p == $1 { print $1 " is duplicated"} {p=$1}' FS=","

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jot*_*tne 6

坚果100％确定您的喜好，但是只有相等时，这只会得到最后一个输入：

awk -F, '{a[$1]=$0} END {for (i in a) print a[i]}' file > newfile
cat newfile
417258,1507888,409,7709,Dmitri Lytov,ny,ru
7198454,15101351,5604,853415,Ffffnm,cdo,zh
7142,7221255,298,78928,WikiDreamer Bot,ny,fi
10767895,5749707,2402,1716,Nickispeaki,ny,uk
1536088,6390442,1301,109160,Ds02006,ny,ru
1393036,293296,68,59,Mithridates,ny,io
353,291765,434,434,Lar,ny,en
10155431,14595886,1807,135860,Riemogerz,ny,id
19332,7401441,296,352647,WikiDreamer,ny,fr

Run Code Online (Sandbox Code Playgroud)

如果不重要保留什么记录，只要字段 1是唯一的。
如果存在多个相等项，则将显示第一个匹配项：

awk -F, '!a[$1]++' file > newfile
cat newfile
1393036,293296,68,59,Mithridates,ny,io
10155431,14595886,1807,135860,Riemogerz,ny,id
10767895,5749707,2402,1716,Nickispeaki,ny,uk
1536088,6390442,1301,109160,Ds02006,ny,ru
353,291765,434,434,Lar,ny,en,en-N
19332,7401441,296,352647,WikiDreamer,ny,fr
7142,7221255,298,78928,WikiDreamer Bot,ny,fi
417258,1507888,409,7709,Dmitri Lytov,ny,ru
7198454,15101351,5604,853415,Ffffnm,cdo,zh

Run Code Online (Sandbox Code Playgroud)

要将副本复制到新文件中：

awk -F, '++a[$1]==2 {print $1}' file > newfile
cat newfile
1536088
353

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，2 月前
查看次数：	806 次
最近记录：	11 年，2 月前