如何删除文本文件中的重复单词

Question

如何删除文本文件中的重复单词

我有文本文件：

\n\n

abandonova\xc5\xa5\nabandonova\xc5\xa5, neabandonova\xc5\xa5\nabandonova\xc5\xa5, abandonujem\nabandonova\xc5\xa5, abandonuje\xc5\xa1\nabandonova\xc5\xa5, abandonuje\nabandonova\xc5\xa5, abandonuje\nabandonova\xc5\xa5, abandonuje\nabandonova\xc5\xa5, neabandonujem\nabandonova\xc5\xa5, neabandonuje\xc5\xa1\n

Run Code Online (Sandbox Code Playgroud)\n\n

我想删除所有重复的单词。它看起来像这样：

\n\n

abandonova\xc5\xa5\nneabandonova\xc5\xa5\nabandonujem\nabandonuje\xc5\xa1\nabandonuje\nneabandonujem\nneabandonuje\xc5\xa1\n

Run Code Online (Sandbox Code Playgroud)\n\n

有人知道如何用 GREP、AWK 实现它吗？

\n

Answer 1

Ste*_*eve 5

这是使用的一种方法GNU awk：

\n\n

awk -F "[, ]" \'{ for(i=1;i<=NF;i++) if (!a[$i]++ && $i != "") print $i }\' file\n

Run Code Online (Sandbox Code Playgroud)\n\n

结果：

\n\n

abandonova\xc5\xa5\nneabandonova\xc5\xa5\nabandonujem\nabandonuje\xc5\xa1\nabandonuje\nneabandonujem\nneabandonuje\xc5\xa1\n

Run Code Online (Sandbox Code Playgroud)\n

Answer 2

len*_*nik 5

您可以尝试使用：

grep -o '\w*' a.txt | sort | uniq

Run Code Online (Sandbox Code Playgroud)

其中 a.txt 是您的文件。

归档时间：	13 年，3 月前
查看次数：	3918 次
最近记录：	13 年，3 月前