如何优化运行4**k次的python脚本?

Dar*_*ose 8 python bioinformatics python-3.x

编程语言:Python 3.4

我已经为Coursera的生物信息学1课程编写了一个程序.该程序工作正常,但对于大型数据集来说速度非常慢.我想,这是因为循环运行了4**k次,其中k是传递给函数的子字符串的长度.输入:字符串文本模式以及整数d.输出:所有起始位置,其中Pattern显示为Text的子字符串,最多d个不匹配.

这是我的代码:

def MotifCount(string1, substring, d):
    k = 4 ** (len(substring))
    codeArray = list(itertools.product(['A', 'C', 'G', 'T'], repeat=len(substring)))
    for i in range(k):
        codeArray2 = ''.join(list(codeArray[i]))
        HammingValue = HammingDistance(codeArray2, substring)
        if HammingValue <= d:
            for j in range(len(string1)):
                if(string1.find(codeArray2, j) == j):
                    print(j)



def HammingDistance(string_1, string_2):
    length_1 = len(string_1)
    length_2 = len(string_2)
    count = 0
    for i in range(length_1):
        if string_1[i] != string_2[i]:
            count += 1
    return count
Run Code Online (Sandbox Code Playgroud)

样本输入:

CGCCCGAATCCAGAACGCATTCCCATATTTCGGGACCACTGGCCTCCACGGTACGGACGTCAATCAAAT
ATTCTGGA
3
Run Code Online (Sandbox Code Playgroud)

输出:

6 7 26 27
Run Code Online (Sandbox Code Playgroud)

我想为更大的数据集优化此代码.有没有办法减少代码的运行时间?

dla*_*ask 3

import itertools

def HammingDistance(string_1, string_2):
    assert len(string_1) == len(string_2)
    return sum(c1 != c2 for c1, c2 in zip(string_1, string_2))

def MotifCount(string1, substring, d):
    for i in range(len(string1) - len(substring) + 1):
        if HammingDistance(string1[i:i+len(substring)], substring) <= d:
            print(i)

MotifCount("CGCCCGAATCCAGAACGCATTCCCATATTTCGGGACCACTGGCCTCCACGGTACGGACGTCAATCAAAT", "ATTCTGGA", 3)
Run Code Online (Sandbox Code Playgroud)

它给:

6
7
26
27
Run Code Online (Sandbox Code Playgroud)

迅速地。

  • @MartinEvans,这只适用于python2,问题是关于python3.4。 (2认同)