小编Dem*_*osW的帖子

从字段中提取长度为 n 的数字并返回字符串

我有一个由文本和数字组合而成的制表符分隔文件。我想保留每一行,但我只想保留第 5 列中的六位数字(如果存在)。例如:

gene1   NM_033629   598G>A  P912    syndrome  1, 192315 syndrome 2,  225750 syndrome 3 610448   score   AD  hom user    123456  Source
gene2   NM_000459   613G>A  V115I   syndrome 1 600195   score   AD  rec user    234567  Source
Run Code Online (Sandbox Code Playgroud)

(以 Syndrome # 为例,这可以是任何文本,因此不是我可以搜索和删除的模式)

我希望输出是:

gene1   NM_033629   598G>A  P912    192315 225750 610448    score   AD  hom user    123456  Source
gene2   NM_000459   613G>A  V115I   600195  score   AD  rec user    234567  Source
Run Code Online (Sandbox Code Playgroud)

我有 4 种方法来提取 6 位数字,但是,我不能

一种。输出它起源的行中的数字

湾 使用一个编辑过的字段成功打印整行。我用来提取数字的选项是:

cat inputfile | cut -f 5 |grep -P …
Run Code Online (Sandbox Code Playgroud)

grep text-processing bioinformatics

6
推荐指数
1
解决办法
663
查看次数

标签 统计

bioinformatics ×1

grep ×1

text-processing ×1