我有一个像这个例子的大文本文件:
例:
>chr9:128683-128744
GGATTTCTTCTTAGTTTGGATCCATTGCTGGTGAGCTAGTGGGATTTTTTGGGGGGTGTTA
>chr16:134222-134283
AGCTGGAAGCAGCGTGGGAATCACAGAATGGCCGGGACCTTAAAGGCTTTGCTTGGCCTGG
>chr16:134226-134287
GGAAGCAGCGTGGGAATCACAGAATGGACGGCCGATTAAAGGCTTTGCTTGGCCTGGATTT
>chr1:134723-134784
AAGTGATTCACCCTGCCTTTCCGACCTTCCCCAGAACAGAACACGTTGATCGTGGGCGATA
>chr16:135770-135831
GCCTGAGCAAAGGGCCTGCCCAGACAAGATTTTTTAATTGTTTAAAAACCGAATAAATGTT
Run Code Online (Sandbox Code Playgroud)
此文件分为不同的部分,每个部分有2行.第一行以>
(此行称为ID)开头,第二行是字母序列.我想GGAC
在字母序列中搜索一个短主题(),如果它们包含主题,我想获得该行的ID(在该行之上一行).
对于上面的例子,这是预期的输出:
预期产量:
>chr16:134222-134283
>chr16:134226-134287
Run Code Online (Sandbox Code Playgroud)
我试图使用以下命令在python中执行此操作,但它不返回我想要的.
infile = open('infile.txt', 'r')
ss = 'CCGA'
new = []
for line in range(len(infile)):
if not infile[line].startswith('>'):
for match in pattern.finder(ss):
new.append(infile[line-1])
Run Code Online (Sandbox Code Playgroud)
你知道怎么解决吗?