我有一个由文本和数字组合而成的制表符分隔文件。我想保留每一行,但我只想保留第 5 列中的六位数字(如果存在)。例如:
gene1 NM_033629 598G>A P912 syndrome 1, 192315 syndrome 2, 225750 syndrome 3 610448 score AD hom user 123456 Source
gene2 NM_000459 613G>A V115I syndrome 1 600195 score AD rec user 234567 Source
Run Code Online (Sandbox Code Playgroud)
(以 Syndrome # 为例,这可以是任何文本,因此不是我可以搜索和删除的模式)
我希望输出是:
gene1 NM_033629 598G>A P912 192315 225750 610448 score AD hom user 123456 Source
gene2 NM_000459 613G>A V115I 600195 score AD rec user 234567 Source
Run Code Online (Sandbox Code Playgroud)
我有 4 种方法来提取 6 位数字,但是,我不能
一种。输出它起源的行中的数字
湾 使用一个编辑过的字段成功打印整行。我用来提取数字的选项是:
cat inputfile | cut -f 5 |grep -P …
Run Code Online (Sandbox Code Playgroud)