小编Ala*_*lan的帖子

如何快速匹配排序的两个文件的字段,但一个是另一个的子集

我有两个已排序的文件,并希望将它们合并为第三个,但我需要对输出进行排序.第二个文件中的一列是第一个文件的子集,第二个文件与第一个文件不匹配的任何位置都应填入NA.这些文件每个都很大(~20,000,000条)记录,因此将内容加载到内存中很困难,速度也是一个问题.

文件1看起来像这样:

1 a
2 b
3 c
4 d
5 e
Run Code Online (Sandbox Code Playgroud)

文件2看起来像这样:

1 aa
2 bb
4 dd
5 ee
Run Code Online (Sandbox Code Playgroud)

输出应该是这样的

1 a aa
2 b bb
3 c NA
4 d cc
5 e ee
Run Code Online (Sandbox Code Playgroud)

python sorting shell perl merge

3
推荐指数
1
解决办法
336
查看次数

标签 统计

merge ×1

perl ×1

python ×1

shell ×1

sorting ×1