小编sia*_*ian的帖子

使用 Bash 从每个基因的 fasta 序列中提取位置 2-7

我有一个包含基因 ID 子集的文件，以及一个包含所有基因 ID 及其序列的 fasta 文件。对于子集文件中的每个基因，我想从每个 fasta 序列的开头获取位置 2-7。理想情况下，输出文件应该是 'pos 2-7' '\t' 'geneID'。

示例子集：

mmu-let-7g-5p MIMAT0000121  
mmu-let-7i-5p MIMAT0000122

Run Code Online (Sandbox Code Playgroud)

法斯塔文件：

>mmu-let-7g-5p MIMAT0000121 
UGAGGUAGUAGUUUGUACAGUU
>mmu-let-7i-5p MIMAT0000122 
UGAGGUAGUAGUUUGUGCUGUU
>mmu-let-7f-5p MIMAT0000525 
UGAGGUAGUAGAUUGUAUAGUU

Run Code Online (Sandbox Code Playgroud)

想要的输出：

GAGGUA   mmu-let-7g-5p MIMAT0000121
GAGGUA   mmu-let-7i-5p MIMAT0000122

Run Code Online (Sandbox Code Playgroud)

第一部分（提取基因子集的 fasta 序列）我已经使用grep -w -A 1 -f. 不知道如何获得 pos 2-7 并使输出看起来像现在使用 Bash。

awk command-line fasta

sia*_*ian

2020 10-19

2
推荐指数

2
解决办法

153
查看次数

标签统计

awk ×1

command-line ×1

fasta ×1

使用 Bash 从每个基因的 fasta 序列中提取位置 2-7

标签 统计

小编sia_ian的帖子

标签统计