Kev*_*vin 4 python bioinformatics biopython
在讨论如何使用Bio.SeqIO.parse()导入序列数据时,BioPython食谱说明:
有一个可选的参数字母表来指定要使用的字母表.这对于像FASTA这样的文件格式很有用,否则Bio.SeqIO将默认为通用字母表.
如何添加此可选参数?我有以下代码:
from os.path import abspath
from Bio import SeqIO
handle = open(f_path, "rU")
records = list(SeqIO.parse(handle, "fasta"))
handle.close()
Run Code Online (Sandbox Code Playgroud)
这将从UniProt数据库导入大量FASTA文件.问题是它在通用的SingleLetterAlphabet类中.如何在SingleLetterAlphabet和ExtendedIUPACProtein之间进行转换?
最终目标是在这些序列中搜索诸如GxxxG之类的主题.
像这样:
# Import required alphabet
from Bio.Alphabet import IUPAC
# Pass imported alphabet as an argument for `SeqIO.parse`:
records = list(SeqIO.parse(handle, 'fasta', IUPAC.extended_protein))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
428 次 |
| 最近记录: |