从 fasta 序列制作表格，python

Question

我有大约 500 个 fasta 格式的蛋白质序列，我是从 Blastp 搜索中得到的。从这些序列中，我需要有蛋白质名称、生物体、Uniprot ID 以及蛋白质家族（如果可能），以便我可以用这些信息构建一个表格。

有什么办法可以用python来做吗？一些与 Uniprot 通信的功能？如何解析 fasta 标头中的信息？

Answer 1

您应该看看具有 FASTA 解析器的Biopython。解析后就可以使用pandas DataFrame建表了。没有示例数据的片段，很难提供更全面的答案，但应该可以使用大约 5 行代码:)

from Bio import SeqIO
with open("example.fasta", "rU") as handle:
    print list(SeqIO.parse(handle, "fasta"))