我有两个大型制表符分隔文件(>10GB),我知道当它们排序时,它们的内容是相同的。
但是,我对行的顺序和交换的行的索引感兴趣,当它们共享相同的“键”时(此处的键定义为基于Source
和Location
列分组的行)。
换句话说,只有当这两个文件之间的行来自同一组时(即,当它们共享相同的源和位置时),才应相互比较。
例如,在下面的示例中,第 4、5、6 行file1.tsv
应与来自的第 4、5、6 行进行比较file2.tsv
注意:文件是普通的 TSV。仅在此处添加额外的空格以使列居中和右对齐以获得更好的可见性。这些空格不是原始文件的一部分
文件1.tsv
Identifier Position Source Location
AY1:2301 87 ch1 14
BC1U:4010 105 ch1 14
AC44:1230 90 ch1 15
AJC:93410 83 ch1 16
ABYY:0001 101 ch1 16
ABC:01 42 ch1 16
HH:A9CX 413 ch1 17
LK:9310 2 ch1 17
JFNE:3410 132 ch1 18
MKASDL:11 14 ch1 18
MKDFA:9401 18 ch1 18
MKASDL1:011 184 ch2 50
LKOC:AMC02 18 ch2 50
POI:1100 900 ch2 53
MCJE:09HA 11 …
Run Code Online (Sandbox Code Playgroud) 我正在运行一个管道命令,其中一个部分如下:
sort -t $'\t' -T . -k1,1g
Run Code Online (Sandbox Code Playgroud)
当我监控时,htop
我看到了这个:
这背后的原因是什么?这是否意味着我的命令错误或者有问题htop
?