小编sia*_*ian的帖子

使用 Bash 从每个基因的 fasta 序列中提取位置 2-7

我有一个包含基因 ID 子集的文件,以及一个包含所有基因 ID 及其序列的 fasta 文件。对于子集文件中的每个基因,我想从每个 fasta 序列的开头获取位置 2-7。理想情况下,输出文件应该是 'pos 2-7' '\t' 'geneID'。

示例子集:

mmu-let-7g-5p MIMAT0000121  
mmu-let-7i-5p MIMAT0000122 
Run Code Online (Sandbox Code Playgroud)

法斯塔文件:

>mmu-let-7g-5p MIMAT0000121 
UGAGGUAGUAGUUUGUACAGUU
>mmu-let-7i-5p MIMAT0000122 
UGAGGUAGUAGUUUGUGCUGUU
>mmu-let-7f-5p MIMAT0000525 
UGAGGUAGUAGAUUGUAUAGUU
Run Code Online (Sandbox Code Playgroud)

想要的输出:

GAGGUA   mmu-let-7g-5p MIMAT0000121
GAGGUA   mmu-let-7i-5p MIMAT0000122
Run Code Online (Sandbox Code Playgroud)

第一部分(提取基因子集的 fasta 序列)我已经使用grep -w -A 1 -f. 不知道如何获得 pos 2-7 并使输出看起来像现在使用 Bash。

awk command-line fasta

2
推荐指数
2
解决办法
153
查看次数

标签 统计

awk ×1

command-line ×1

fasta ×1