在Python中有效地获取基因组序列?

6 python bioinformatics biopython

如何使用Python有效地获取基因组序列?例如,从.fa文件或其他一些容易获得的格式?我基本上想要一个接口f​​etch_seq(chrom,strand,start,end),它将返回指定链上给定染色体上的序列[start,end].

类似地,是否有用于获取phastCons分数的程序化python接口?

谢谢.

Bra*_*man 2

请参阅我在 Biostar 对您问题的回答:

http://biostar.stackexchange.com/questions/1639/getting-genomic-sequences-and-phastcons-scores-using-python-from-ensembl-ucsc

将 SeqIO 与 Fasta 文件结合使用,您将获得文件中每个项目的记录对象。然后你可以这样做:

region = rec.seq[start:end]
Run Code Online (Sandbox Code Playgroud)

拉出切片。使用标准库的好处是您不必担心原始 fasta 文件中的换行符。