小编use*_*934的帖子

使用python的文本文件中的图案查找器

我有一个像这个例子的大文本文件:

例:

>chr9:128683-128744
GGATTTCTTCTTAGTTTGGATCCATTGCTGGTGAGCTAGTGGGATTTTTTGGGGGGTGTTA
>chr16:134222-134283
AGCTGGAAGCAGCGTGGGAATCACAGAATGGCCGGGACCTTAAAGGCTTTGCTTGGCCTGG
>chr16:134226-134287
GGAAGCAGCGTGGGAATCACAGAATGGACGGCCGATTAAAGGCTTTGCTTGGCCTGGATTT
>chr1:134723-134784
AAGTGATTCACCCTGCCTTTCCGACCTTCCCCAGAACAGAACACGTTGATCGTGGGCGATA
>chr16:135770-135831
GCCTGAGCAAAGGGCCTGCCCAGACAAGATTTTTTAATTGTTTAAAAACCGAATAAATGTT

Run Code Online (Sandbox Code Playgroud)

此文件分为不同的部分,每个部分有2行.第一行以>(此行称为ID)开头,第二行是字母序列.我想GGAC在字母序列中搜索一个短主题(),如果它们包含主题,我想获得该行的ID(在该行之上一行).

对于上面的例子,这是预期的输出:

预期产量:

>chr16:134222-134283
>chr16:134226-134287

Run Code Online (Sandbox Code Playgroud)

我试图使用以下命令在python中执行此操作,但它不返回我想要的.

infile = open('infile.txt', 'r')
ss = 'CCGA'
new = []
for line in range(len(infile)):
    if not infile[line].startswith('>'):
        for match in pattern.finder(ss):
            new.append(infile[line-1])

Run Code Online (Sandbox Code Playgroud)

你知道怎么解决吗？

python bioinformatics fasta biopython

use*_*934

2018 12-21

0
推荐指数

1
解决办法

114
查看次数