小编Iva*_*tro的帖子

更复杂的版本"如何在Python中重复自己的字符串?"

我正在阅读这篇文章,我想知道是否有人能找到将重复图案捕捉到更复杂字符串的方法.

例如,找到所有重复的图案

string = 'AAACACGTACGTAATTCCGTGTGTCCCCTATACGTATACGTTT'
Run Code Online (Sandbox Code Playgroud)

这里重复的主题:'AAAC ACGTACGT AATTCC GTGTGT CCCC TATACGTATACG TTT'

所以,输出应该是这样的:

output = {'ACGT': {'repeat': 2,
                   'region': (5,13)},
          'GT': {'repeat': 3,
                 'region': (19,24)},
          'TATACG': {'repeat': 2,
                     'region': (29,40)}}
Run Code Online (Sandbox Code Playgroud)

该实例来自称为微卫星的典型生物现象,其存在于DNA中.

更新1:从字符串变量中删除了星号.那是一个错误.

更新2:单个字符图案不计算在内.例如:在ACGUG AAA GUC中,不考虑"A"主题.

python string bioinformatics pattern-matching

12
推荐指数
1
解决办法
407
查看次数

python3:从url读取json文件

在python3中,我想加载this_file,这是一种json格式.

基本上,我想做[pseudocode]之类的事情:

>>> read_from_url = urllib.some_method_open(this_file)
>>> my_dict = json.load(read_from_url)
>>> print(my_dict['some_key'])
some value
Run Code Online (Sandbox Code Playgroud)

python url json

5
推荐指数
3
解决办法
7867
查看次数

将GenBank登录码指定为biopython,如何获得科学名称?

有人知道如何仅使用GenBank代码登录名和biopython从GenBank中的数据中获取科学名称(或所有功能)。例如:

>>> From Bio import Entrez
>>> Entrez.email = someuser@mail.com
>>> Input = Entrez.someFunction(db="nucleotide", term="AY851612")
>>> output = Entrez.read(Input)
>>> print output

"Austrocylindropuntia subulata"
Run Code Online (Sandbox Code Playgroud)

还是:

>>> print output

"LOCUS AY851612 892 bp DNA linear PLN 10-APR-2007
DEFINITION Opuntia subulata rpl16 gene, intron; chloroplast.
ACCESSION AY851612
VERSION AY851612.1 GI:57240072
KEYWORDS .
SOURCE chloroplast Austrocylindropuntia subulata
ORGANISM Austrocylindropuntia subulata
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
Caryophyllales; Cactaceae; Opuntioideae; Austrocylindropuntia.
REFERENCE 1 (bases 1 to 892)
AUTHORS Butterworth,C.A. and …
Run Code Online (Sandbox Code Playgroud)

python bioinformatics biopython genbank

1
推荐指数
1
解决办法
1308
查看次数