我有以下形式的10GB数据:
A=good
B=c++
Run Code Online (Sandbox Code Playgroud)
现在我想找出B的.例如,我希望找到"c ++",因为对于这种情况......我对这个问题的关注方法是选择B部分(即第一行的第一行)并从那里找出一个相等的字符串到B的字符串.然后在第二轮循环中......我正在寻找B的另一个值(现在是第4行)并从那里找到一个具有相等字符串的B ......依此类推
但是,上述方法需要花费大量时间,Python中是否有其他方法可以有效地解决这个问题.
由于您的文件太大而无法轻松放入内存,如何:
sort或Python外部内存mergesort)