Tia*_*zzi 2 linux sed text-processing
我有一个包含如下行的文件:
TsM_000477300_transcript_id_TsM_000477300_gene_id_TsM_000477300,extr 29
TsM_000541200_transcript_id_TsM_000541200_gene_id_TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400_transcript_id_TsM_000020400_gene_id_TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600_transcript_id_TsM_000268600_gene_id_TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800_transcript_id_TsM_000533800_gene_id_TsM_000533800,extr 31
TsM_000208300_transcript_id_TsM_000208300_gene_id_TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500_transcript_id_TsM_000379500_gene_id_TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200_transcript_id_TsM_000882200_gene_id_TsM_000882200,extr 32
TsM_001173700_transcript_id_TsM_001173700_gene_id_TsM_001173700,extr 31
Run Code Online (Sandbox Code Playgroud)
我想要的输出是这个:
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31
Run Code Online (Sandbox Code Playgroud)
我用过 sed -E 's/(^.+)_transcript_id_.+.,(.*$)/\1,\2/'
但我不能得到我想要的。这是我的输出:
TsM_000477300,extr 29
TsM_000541200,E.R._golg 3
TsM_000020400,cyto_pero 1
TsM_000268600,golg 2
TsM_000533800,extr 31
TsM_000208300,E.R. 2
TsM_000379500,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31
Run Code Online (Sandbox Code Playgroud)
我尝试了一些变化,但没有成功,我不知道为什么。
问题是.+.,
贪婪地匹配所有东西,包括最后一个 ,
您可以将其修改为[^,]+.,
或只是[^,]+,
为了在 CSV 上下文中模拟非贪婪。但是,您可能可以做一些更简单的事情,例如
$ sed 's/_transcript_id_[^,]*//' file
TsM_000477300,extr 29
TsM_000541200,extr 9,plas 7,mito 6.5,cyto_mito 4,E.R. 3,lyso 3,golg 3,E.R._golg 3
TsM_000020400,extr 28,cyto 1,E.R. 1,pero 1,lyso 1,cyto_pero 1
TsM_000268600,extr 13,plas 7,E.R. 5,lyso 3,golg 2
TsM_000533800,extr 31
TsM_000208300,extr 19,pero 5,lyso 4,plas 2,E.R. 2
TsM_000379500,extr 15,golg 12,lyso 3
TsM_000882200,extr 32
TsM_001173700,extr 31
Run Code Online (Sandbox Code Playgroud)