提取公共标识符的开始和结束位置

Question

提取公共标识符的开始和结束位置

fus*_*ope 6 sed awk text-processing bioinformatics

我有一个看起来像这样的文件：

Id       Chr     Start   End  
Prom_1   chr1    3978952 3978953  
Prom_1   chr1    3979165 3979166  
Prom_1   chr1    3979192 3979193  
Prom_2   chr1    4379047 4379048  
Prom_2   chr1    4379091 4379092  
Prom_2   chr1    4379345 4379346  
Prom_2   chr1    4379621 4379622  
Prom_3   chr1    5184469 5184470  
Prom_3   chr1    5184495 5184496

Run Code Online (Sandbox Code Playgroud)

我想提取的是这样的开始和结束Id：

Id       Chr     Start   End  
Prom_1   chr1    3978952 3979193  
Prom_2   chr1    4379047 4379622  
Prom_3   chr1    5184469 5184496

Run Code Online (Sandbox Code Playgroud)

正如您所注意到的Id，开始和结束之间的重复次数并不是恒定的。任何想法将不胜感激。

Answer 1

Sat*_*ura 6

使用 GNU datamash：

datamash -H -W -g 1,2 min 3 max 4 <input

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，11 月前
查看次数：	226 次
最近记录：	8 年，10 月前