Leo*_*eis 1 python bioinformatics
我有大约 500 个 fasta 格式的蛋白质序列,我是从 Blastp 搜索中得到的。从这些序列中,我需要有蛋白质名称、生物体、Uniprot ID 以及蛋白质家族(如果可能),以便我可以用这些信息构建一个表格。
有什么办法可以用python来做吗?一些与 Uniprot 通信的功能?如何解析 fasta 标头中的信息?
您应该看看具有 FASTA 解析器的Biopython。解析后就可以使用pandas DataFrame建表了。没有示例数据的片段,很难提供更全面的答案,但应该可以使用大约 5 行代码:)
from Bio import SeqIO
with open("example.fasta", "rU") as handle:
print list(SeqIO.parse(handle, "fasta"))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
489 次 |
| 最近记录: |