提取公共标识符的开始和结束位置

fus*_*ope 6 sed awk text-processing bioinformatics

我有一个看起来像这样的文件:

Id       Chr     Start   End  
Prom_1   chr1    3978952 3978953  
Prom_1   chr1    3979165 3979166  
Prom_1   chr1    3979192 3979193  
Prom_2   chr1    4379047 4379048  
Prom_2   chr1    4379091 4379092  
Prom_2   chr1    4379345 4379346  
Prom_2   chr1    4379621 4379622  
Prom_3   chr1    5184469 5184470  
Prom_3   chr1    5184495 5184496  
Run Code Online (Sandbox Code Playgroud)

我想提取的是这样的开始和结束Id

Id       Chr     Start   End  
Prom_1   chr1    3978952 3979193  
Prom_2   chr1    4379047 4379622  
Prom_3   chr1    5184469 5184496
Run Code Online (Sandbox Code Playgroud)

正如您所注意到的Id,开始和结束之间的重复次数并不是恒定的。任何想法将不胜感激。

Sat*_*ura 6

使用 GNU datamash

datamash -H -W -g 1,2 min 3 max 4 <input
Run Code Online (Sandbox Code Playgroud)