我正在阅读这篇文章,我想知道是否有人能找到将重复图案捕捉到更复杂字符串的方法.
例如,找到所有重复的图案
string = 'AAACACGTACGTAATTCCGTGTGTCCCCTATACGTATACGTTT'
Run Code Online (Sandbox Code Playgroud)
这里重复的主题:'AAAC ACGTACGT AATTCC GTGTGT CCCC TATACGTATACG TTT'
所以,输出应该是这样的:
output = {'ACGT': {'repeat': 2,
'region': (5,13)},
'GT': {'repeat': 3,
'region': (19,24)},
'TATACG': {'repeat': 2,
'region': (29,40)}}
Run Code Online (Sandbox Code Playgroud)
该实例来自称为微卫星的典型生物现象,其存在于DNA中.
更新1:从字符串变量中删除了星号.那是一个错误.
更新2:单个字符图案不计算在内.例如:在ACGUG AAA GUC中,不考虑"A"主题.
在python3中,我想加载this_file,这是一种json格式.
基本上,我想做[pseudocode]之类的事情:
>>> read_from_url = urllib.some_method_open(this_file)
>>> my_dict = json.load(read_from_url)
>>> print(my_dict['some_key'])
some value
Run Code Online (Sandbox Code Playgroud) 有人知道如何仅使用GenBank代码登录名和biopython从GenBank中的数据中获取科学名称(或所有功能)。例如:
>>> From Bio import Entrez
>>> Entrez.email = someuser@mail.com
>>> Input = Entrez.someFunction(db="nucleotide", term="AY851612")
>>> output = Entrez.read(Input)
>>> print output
"Austrocylindropuntia subulata"
Run Code Online (Sandbox Code Playgroud)
还是:
>>> print output
"LOCUS AY851612 892 bp DNA linear PLN 10-APR-2007
DEFINITION Opuntia subulata rpl16 gene, intron; chloroplast.
ACCESSION AY851612
VERSION AY851612.1 GI:57240072
KEYWORDS .
SOURCE chloroplast Austrocylindropuntia subulata
ORGANISM Austrocylindropuntia subulata
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
Caryophyllales; Cactaceae; Opuntioideae; Austrocylindropuntia.
REFERENCE 1 (bases 1 to 892)
AUTHORS Butterworth,C.A. and …Run Code Online (Sandbox Code Playgroud)