Numpy和Biopython必须整合?

Die*_*Zea 5 numpy bioinformatics scipy biopython

例如......如果(多序列比对)MSA具有超过50列且间隙小于50%,我有两个脚本可供查看.

第一次使用BioPython需要4.2秒的MSA 16281序列和609列(PFF85的Pfam以fasta格式).[Biopython的多序列对齐对象的getitem方法耗费大量时间]

第二个使用简单的IO生成带有MSA 的2D Numpy阵列,在同一个Alignment中仅需1.2秒.

我认为对MSA对象的Numpy方法可以更有用,更快.例如,您可以使用布尔numpy数组来选择特定的行和列.实际上删除和选择列(例如用于消除具有更多50%间隙的列)是非常耗时的并且在Biopython中没有很好地实现.我认为这对于PDB坐标的nx3 numpy数组也很有用.

我有五个想法,也许只有一两个有用:

1 - 基于numpy而不是str 创建Seq和Multiple Sequence Alignment对象(Bio.Align.MultipleSeqAlignment).这可能是兼容性的问题......也许这不是一个好主意.我不知道.

2 - 在Biopython中创建一个更快的方法,从Biopython对象中获取numpy数组版本.我尝试为Multiple Sequence Alignment对象生成numpy数组,但这会对getitem方法进行多次调用,并且比单独使用Biopython更耗时.但是,也许拥有更多编程技能的人可以做得更好.

3 - 创建一个numpy或scipy模块,IO支持Alignments和PDB.也许更简单有用的想法.

4 - 创建另一个完整的生物模块,但基于numpy.也许在scipy或numpy内.

5 - 与想法2和3一样,创建模块和方法,以便在Biopython和numpy对象之间实现更快更有效的兼容性.

你怎么看?有什么想法更好?你有更好的主意吗?可以做点什么吗?我想与Biopython项目合作......我认为与numpy的整合可能是一个良好的开端.

非常感谢 ;)

PD:我的两个脚本......慢,基于Biopython:

#!/usr/bin/python2.7

from sys import argv
from Bio import AlignIO
aln = AlignIO.read(open(argv[1],"r"), "fasta")
longitud = aln.get_alignment_length()
if longitud > 150:
    corte = 0.5 * len(aln)
    j = 0
    i = 0
    while j<50 and i<longitud:    
        if aln[:,i].count("-") < corte:
            j += 1
        i += 1
    if j>=50:
        print argv[1]
Run Code Online (Sandbox Code Playgroud)

并且最快的基于numpy数组:

#!/usr/bin/python2.7

from sys import argv
import numpy as np

with open(argv[1],'r') as archivo:
    secuencias=[]
    identificadores=[]
    temp=[]
    for linea in archivo:
        if linea[0]=='>':
            identificadores.append(linea[1:].replace('\n',''))
            secuencias.append(list(temp))
            temp=""
        else:
            temp += linea.replace('\n','')
    secuencias.append(list(temp))

sec = np.array(secuencias[1:])
ide = np.array(identificadores)

if len(ide)>150:
    corte = len(ide) * 0.5
    if np.sum(np.sum(sec=='-',1) < corte) >= 50:
        print argv[1]
Run Code Online (Sandbox Code Playgroud)

pet*_*rjc 3

如果您要对 MSA 对象执行大量操作,将它们视为字符数组很有用,那么我只需使用 Biopython 的 AlignIO 来加载对齐,然后将其转换为 NumPy 字符数组。例如:

import numpy as nump
from Bio import AlignIO
filename = "opuntia.aln"
format = "clustal"
alignment = AlignIO.read(filename, format)
align_array = numpy.array([list(rec) for rec in alignment], numpy.character)
Run Code Online (Sandbox Code Playgroud)

该快速示例可以轻松地作为 to_array 方法添加到对齐对象中,或包含在教程中。有帮助吗?

当然,您仍然需要支付所有对象创建的开销(Seq 对象、SeqRecord 对象、空注释字典、对齐对象等),但这就是 AlignIO 接口的缺点 - 它适用于相对较重的对象模型。这对于 FASTA 和 Clustal 等简单格式来说并不是真正需要的,但对于 Stockholm 等丰富的对齐格式更有用。

  • 我在 Biopython 教程中添加了这样的示例,https://github.com/biopython/biopython/commit/9ac3cfe88dc7f7cd1c3d3dc640aeb31768ef7366 (2认同)