如何合并不同行的文件？

Question

合并不同文件行的最快命令行方式是什么？例如，我有两个文件：

.txt:

foo  
bar
foobar

b.txt

foo
foobar
line
by
bar

我想得到以下输出：

foo
bar
foobar
line
by

有没有什么快速的方法可以像上面的例子那样合并文件？（行的顺序并不重要）

Answer 1

$ sort -u a.txt b.txt
bar
by
foo
foobar
line

这将对两个文件的（组合）内容进行排序，删除重复的行。不利的一面是，如果在其中一个文件中复制了一行，这也将被删除。

要将结果写入c.txt，请使用

sort -u -o c.txt a.txt b.txt

或标准重定向

sort -u a.txt b.txt >c.txt

Answer 2

awk seen如果您不想对文件进行排序，请使用：

$ awk '!seen[$0]++' a.txt b.txt
foo  
bar
foobar
line
by

@KrisztiánBenda 这是 `awk` 中的关联数组。您可以使用任何数组名称，并且 `seen` 通常用于这些类型的操作。`awk '!p[$0]++'` 也能正常工作。请注意，此解决方案适用于相当大量的数据，但内存消耗会随着输入中唯一行的数量而增加。 (2认同)

Answer 3

根据您所需的输出，我假设您只希望将两个文件与唯一的字符串合并。

在这种情况下，cat，sort并uniq能为你做到这一点：

cat a.txt b.txt | sort | uniq > c.txt

cat 打开两个文件的内容

sort 按字母顺序对输出进行排序

uniq 只列出唯一的字符串

> c.txt 将所有输出放在一个新文件中 c.txt