我有一个包含基因 ID 子集的文件,以及一个包含所有基因 ID 及其序列的 fasta 文件。对于子集文件中的每个基因,我想从每个 fasta 序列的开头获取位置 2-7。理想情况下,输出文件应该是 'pos 2-7' '\t' 'geneID'。
示例子集:
mmu-let-7g-5p MIMAT0000121
mmu-let-7i-5p MIMAT0000122
Run Code Online (Sandbox Code Playgroud)
法斯塔文件:
>mmu-let-7g-5p MIMAT0000121
UGAGGUAGUAGUUUGUACAGUU
>mmu-let-7i-5p MIMAT0000122
UGAGGUAGUAGUUUGUGCUGUU
>mmu-let-7f-5p MIMAT0000525
UGAGGUAGUAGAUUGUAUAGUU
Run Code Online (Sandbox Code Playgroud)
想要的输出:
GAGGUA mmu-let-7g-5p MIMAT0000121
GAGGUA mmu-let-7i-5p MIMAT0000122
Run Code Online (Sandbox Code Playgroud)
第一部分(提取基因子集的 fasta 序列)我已经使用grep -w -A 1 -f. 不知道如何获得 pos 2-7 并使输出看起来像现在使用 Bash。