如何有效地搜索文件中的字符串?

use*_*603 0 python algorithm

我有以下形式的10GB数据:

A=good
B=c++
Run Code Online (Sandbox Code Playgroud)

现在我想找出B的.例如,我希望找到"c ++",因为对于这种情况......我对这个问题的关注方法是选择B部分(即第一行的第一行)并从那里找出一个相等的字符串到B的字符串.然后在第二轮循环中......我正在寻找B的另一个值(现在是第4行)并从那里找到一个具有相等字符串的B ......依此类推

但是,上述方法需要花费大量时间,Python中是否有其他方法可以有效地解决这个问题.

Dou*_*gal 8

由于您的文件太大而无法轻松放入内存,如何:

  1. 分为两个文件,As和Bs
  2. 对每个进行排序(例如使用unix sort或Python外部内存mergesort)
  3. 执行mergesort的合并步骤以查找重复项