我不确定默认的python安装是否是我一直在安装模块的安装,如果这可能是导致Unicode字节大小兼容性错误的原因.简而言之,我使用Python 2.7.3安装了Numpy 1.7,当我尝试安装使用Python和Numpy作为依赖项的其他程序时,我收到此错误:
Traceback (most recent call last):
File "setup.py", line 20, in <module>
from weblogolib import __version__
File "/home/chris/Documents/IS/Bioinformatics-Software/weblogo-3.3/weblogolib/__init__.py", line 108, in <module>
from numpy import array, asarray, float64, ones, zeros, int32,all,any, shape
File "/usr/lib/python2.7/dist-packages/numpy/__init__.py", line 137, in <module>
import add_newdocs
File "/usr/lib/python2.7/dist-packages/numpy/add_newdocs.py", line 9, in <module>
from numpy.lib import add_newdoc
File "/usr/lib/python2.7/dist-packages/numpy/lib/__init__.py", line 4, in <module>
from type_check import *
File "/usr/lib/python2.7/dist-packages/numpy/lib/type_check.py", line 8, in <module>
import numpy.core.numeric as _nx
File "/usr/lib/python2.7/dist-packages/numpy/core/__init__.py", line 5, in <module>
import multiarray …Run Code Online (Sandbox Code Playgroud) 我正在尝试运行一个名为GlimmerHMM的程序,但是当我尝试调用该程序时,我收到此错误:
./glimmerhmm_linux
./glimmerhmm_linux: error while loading shared libraries: libstdc++.so.5: cannot open shared object file: No such file or directory
Run Code Online (Sandbox Code Playgroud)
所以我尝试下载和安装:
sudo apt-get install libstdc++5
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages were automatically installed and are no longer required:
html2text libmail-sendmail-perl libsys-hostname-long-perl
Use 'apt-get autoremove' to remove them.
The following NEW packages will be installed: libstdc++5
0 upgraded, 1 newly installed, 0 to remove and 183 not upgraded.
Need to get 255 kB …Run Code Online (Sandbox Code Playgroud) 我正在尝试运行需要安装Numpy的程序。我以为是这样,因为如果尝试,sudo apt-get install python-numpy它会告诉我
sudo apt-get install python-numpy
Reading package lists... Done
Building dependency tree
Reading state information... Done
python-numpy is already the newest version.
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
Run Code Online (Sandbox Code Playgroud)
但是当我尝试安装程序时(在该程序目录中,setup.py所在的位置),我得到:
python setup.py install
Traceback (most recent call last):
File "setup.py", line 20, in <module>
from weblogolib import __version__
File "/home/chris/Documents/IS/Bioinformatics-Software/weblogo-3.3/weblogolib/__init__.py", line 108, in <module>
from numpy import array, asarray, float64, ones, zeros, int32,all,any, shape
ImportError: No module named numpy
Run Code Online (Sandbox Code Playgroud)
当我在Python-2.7.3 …
好的,我需要使用python从一个FASTA文件中提取部分序列(biopython,http://biopython.org/DIST/docs/tutorial/Tutorial.html)
我需要从每个序列中获取前10个碱基并将它们放在一个文件中,保留FASTA格式的序列信息.最糟糕的是,如果没有办法保留序列信息,我可以使用基数.所以这是一个例子:
>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
Run Code Online (Sandbox Code Playgroud)
我需要一些方法来获得前10个基地(然后我计划在最后10个基地再做一次).该教程网站非常详尽,但我是新手,因为它没有涉及到这一点,我甚至不确定它是否可行.谢谢你提供的所有帮助.
我有一个关于按多列排序数据的问题.我绝对是这方面的初学者,我想知道如何按一列排序,然后另一列排序而不会丢失第一列的排序.我有一个由三列组成的制表符分隔数据文件.大多数数据未配对(一个id,第一列,以及位置开始和结束,第二和第三列).但是,有时候,同一ID(第一列)有多个条目.这些需要保持组合在一起(没有空格将它们与下一个条目分开,除非它具有不同的ID).数据实际上已经按照第一列进行了排序,但我需要根据起始位置(第二列)对数据进行排序,同时保留原始排序.像这样:
目前的格式:
PITG_00129 606 1436
PITG_00130 1 987
PITG_00132 2 1321
PITG_00133 4464 11708
PITG_00133 1 2946
PITG_00133 4081 4515
Run Code Online (Sandbox Code Playgroud)
所需格式:
PITG_00129 606 1436
PITG_00130 1 987
PITG_00132 2 1321
PITG_00133 1 2946
PITG_00133 4081 4515
PITG_00133 4464 11708
Run Code Online (Sandbox Code Playgroud) 我有两个文件.
文件1:带有基因序列的FASTA文件,如下例所示:
>PITG_00002 | Phytophthora infestans T30-4 conserved hypothetical protein (426 nt)
ATGCATCGCTCGGGTTCCGCACGGAAAGCCCAAGGTCTGGGATTACGGGGTGGTGGTCGG
TTACACTTGGAATAACCTCGCAAATTCAGAATCTCTACAGGCTACGTTCGCGGATGGAAC
>PITG_00003 | Phytophthora infestans T30-4 protein kinase (297 nt)
ATGACGGCTGGGGTCGGTACGCCCTACTGGATCGCACCGGAGATTCTTGAAGGCAAACGG
TACACTGAGCAAGCGGATATTTACTCGTTCGGAGTGGTTTTATCCGAGCTGGACACGTGC
AAGATGCCGTTCTCTGACGTCGTTACGGCAGAGGGAAAGAAACCCAAACCAGTTCAGATC
>PITG_00004 | Phytophthora infestans T30-4 protein kinase, putative (1969 nt)
ATGCGCGTGTCTGGTCTCCTTTCAATTCTTGCAGCCACTTTGACCACGGCCCAAGACTAC
Run Code Online (Sandbox Code Playgroud)
文件2:一个简单的文本文件,其中包含基因的登录标识.像这样.
PITG_00003
PITG_00005
PITG_00023
Run Code Online (Sandbox Code Playgroud)
文件2中的每个条目都在文件1中的某个位置,但不是文件1中的每个条目都在文件2中.我需要从文件1中删除不在文件2中的所有条目.我觉得在biopython中必须有一些东西可以帮助我的模块,我只是不知道是什么.例如,我原本以为我可以使用该SeqIO.parse函数从我的FASTA文件中提取加入,但这真的让我有两个加入号文件.我不知道如何有选择地提取其他文件中的加入.也许喜欢将文件2中的所有条目读入字典,然后将该条目与文件1中的匹配条目相关联并用于SeqIO.parse提取整个序列...但我真的不知道....任何人都可以给予任何帮助我非常感谢!