从非常大的文件中删除罕见的单词

lea*_*ark 0 python unix linux words file

给定一个非常大的文本文件,我想删除在文件中只出现一次的所有单词.有没有简单有效的方法呢？

最好的祝福,

你必须在文件中进行2次传递:

在第1遍:

使用单词作为键及其出现的值来构建字典(即每次读取单词时,在字典中将其值加1)
然后预处理列表以删除值大于1的所有键.现在是您的"黑名单"

在第2轮:

再次读取文件并删除黑名单中匹配的任何单词.

运行:

两次传递中读取文件的线性时间.
它需要O(1)将每个单词添加到字典中/在第1遍中增加其值.
需要O(n)将字典预处理到黑名单中.
在第2遍中,黑名单查找需要O(1).

O(n)复杂性

归档时间：	13 年，4 月前
查看次数：	1103 次
最近记录：	13 年，4 月前

如何在Java中创建临时目录/文件夹？ 338

删除字符串的第一个字符 149

Python3中的过滤器 106

Python - 所有内置的装饰器是什么？ 63

如何监控Linux UDP缓冲区可用空间？ 47

如何替换每个单词中第一次出现的字符？ 46

从makefile运行Executable 12

apt-get 存储库是如何托管/管理/架构的？ 8

在Matlab中读取和处理大型文本文件 4

如何从文件中读取未知数量的浮点数？ 0

grep一个文件,但显示几个周围的行？ 3277

可以(a == 1 && a == 2 && a == 3)评估为真吗？ 2438

.prop()vs .attr() 2249

我怎样才能过渡高度:0; 高度:自动; 用CSS？ 1985

如何调试Node.js应用程序？ 1531

从JS数组中删除重复值 1225

为什么我们需要C++中的虚函数？ 1223

在现代Python中声明自定义异常的正确方法？ 1176

LF将被git中的CRLF取代 - 这是什么,它是否重要？ 1146

如何撤消git reset --hard HEAD~1？ 1083