相关疑难解决方法(0)

如何删除文本文件中的重复行？

我的一个巨大的（最多 2 GiB）文本文件包含其中每一行的大约 100 个精确副本（在我的情况下没用，因为该文件是一个类似 CSV 的数据表）。

我需要的是在保持原始序列顺序的同时删除所有重复（最好，但可以为了显着的性能提升而牺牲）。结果中的每一行都是唯一的。如果有 100 条相等的行（通常重复项分布在整个文件中并且不会是邻居），则只剩下一种。

我已经用 Scala 编写了一个程序（如果您不了解 Scala，请考虑使用 Java）来实现这一点。但也许有更快的 C 编写的本地工具能够更快地做到这一点？

更新：awk '!seen[$0]++' filename只要文件接近 2 GiB 或更小，该解决方案似乎对我来说很好用，但现在我要清理 8 GiB 文件，它不再起作用。在配备 4 GiB RAM 的 Mac 和配备 4 GiB RAM 和 6 GiB 交换的 64 位 Windows 7 PC 上，似乎无穷无尽，只是内存不足。鉴于这种经验，我并不热衷于在具有 4 GiB RAM 的 Linux 上尝试它。

large-files text-processing files

Iva*_*van

2018 02-08

170
推荐指数

5
解决办法

23万
查看次数

标签统计

files ×1

large-files ×1

text-processing ×1

如何删除文本文件中的重复行？

标签 统计

标签统计