我有来自实验的Base64编码数据.所以我试图逐步做的是:
例:
Dn3LQ3np4kOyxQJE20kDRBRuFkScZB5ENxEzRFa+O0THMz9EOQRCRFC1QkRYeUNEwXJJROfbSUScvE5EVDtVRK5PV0TLUWNE481lRHX7ZkSBBWpE9FVyRIFdeESkoHhEnid8RI1nfUSy4YBE/C2CRGKQg0RcR4RE54uEROUAhUTBWodErKyMRNsVkkRvUpJEukWURO58lkSqRZ1E2VauRPBTwEQf9cVE9BnKRA==
到目前为止我尝试过的
import os
import base64
import struct
s = 'Dn3LQ3np4kOyxQJE20kDRBRuFkScZB5ENxEzRFa+O0THMz9EOQRCRFC1QkRYeUNEwXJJROfbSUScvE5EVDtVRK5PV0TLUWNE481lRHX7ZkSBBWpE9FVyRIFdeESkoHhEnid8RI1nfUSy4YBE/C2CRGKQg0RcR4RE54uEROUAhUTBWodErKyMRNsVkkRvUpJEukWURO58lkSqRZ1E2VauRPBTwEQf9cVE9BnKRA=='
decode=base64.decodestring(s)
tmp_size=len(decode)/4
现在我试图从这里将这些字节转换为小端.
我想用Python做下一个操作.
我想弄明白自己,但是花了太多时间.
谢谢!
我试图解析一个范围从(20MB-3GB)的巨大XML文件.文件是来自不同仪器的样本.所以,我正在做的是从文件中找到必要的元素信息并将它们插入数据库(Django).
我文件样本的一小部分.命名空间存在于所有文件中.文件的有趣特征是它们具有比文本更多的节点属性
<?xml VERSION="1.0" encoding="ISO-8859-1"?>
<mzML xmlns="http://psi.hupo.org/ms/mzml" xmlns:xs="http://www.w3.org/2001/XMLSchema-instance" xs:schemaLocation="http://psi.hupo.org/ms/mzml http://psidev.info/files/ms/mzML/xsd/mzML1.1.0.xsd" accession="plgs_example" version="1.1.0" id="urn:lsid:proteios.org:mzml.plgs_example">
    <instrumentConfiguration id="QTOF">
                    <cvParam cvRef="MS" accession="MS:1000189" name="Q-Tof ultima"/>
                    <componentList count="4">
                            <source order="1">
                                    <cvParam cvRef="MS" accession="MS:1000398" name="nanoelectrospray"/>
                            </source>
                            <analyzer order="2">
                                    <cvParam cvRef="MS" accession="MS:1000081" name="quadrupole"/>
                            </analyzer>
                            <analyzer order="3">
                                    <cvParam cvRef="MS" accession="MS:1000084" name="time-of-flight"/>
                            </analyzer>
                            <detector order="4">
                                    <cvParam cvRef="MS" accession="MS:1000114" name="microchannel plate detector"/>
                            </detector>
                    </componentList>
     </instrumentConfiguration>
小但完整的文件在这里
所以我到目前为止所做的就是将findall用于所有感兴趣的元素.
import xml.etree.ElementTree as ET
tree=ET.parse('plgs_example.mzML')
root=tree.getroot()
NS="{http://psi.hupo.org/ms/mzml}"
s=tree.findall('.//{http://psi.hupo.org/ms/mzml}instrumentConfiguration')
for ins in range(len(s)):
    insattrib=s[ins].attrib
    # It will print out all the id attribute …我试图在Mac OSX 10.7.4上安装PIL,但几个小时后尝试无法成功.我一直遇到同样的问题,在下面的pastebin链接中提供了详细信息.开导我!!
tbc:~ mystic$ which python
/Library/Frameworks/Python.framework/Versions/2.7/bin/python
我从几个来源搜索和尝试:
Run Code Online (Sandbox Code Playgroud)Python 2.7.2 (v2.7.2:8527427914a2, Jun 11 2011, 15:22:34) [GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import Image Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named Image >>> import PIL Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No …
我曾尝试在XSL文件中执行嵌套循环,但在多次尝试后卡住了
我的xml文件就是这样的
<chromosome cnumber="X" cstart="10000" cend="1000000">
    <gene>
        <gname>ENSG00000216667</gname>
        <gstart>100411</gstart>
        <gend>102713</gend>
        <external_ref>
            <one>OTTG:OTTHUMG00000046372</one>
            <two>HGNC:CXYorf11</two>
            <three>HGNC_curated_gene:CXYorf11</three>
        </external_ref>
        <transcript>
            <tname>ENST00000406851</tname>
            <tstart>100411</tstart>
            <tend>102713</tend>
            <tstrand>+1</tstrand>
        </transcript>
    </gene>
    <gene>
        <gname>ENSG00000182378</gname>
        <gstart>122990</gstart>
        <gend>150024</gend>
        <external_ref>
            <one>UCSC:uc004cpa.1</one>
            <two>UCSC:uc004cpb.1</two>
            <three>HGNC:PLCXD1</three>
            <four>HGNC_automatic_gene:PLCXD1</four>
        </external_ref>
        <transcript>
            <tname>ENST00000381657</tname>
            <tstart>127860</tstart>
            <tend>150024</tend>
            <tstrand>+1</tstrand>
        </transcript>
        <transcript>
            <tname>ENST00000399012</tname>
            <tstart>122990</tstart>
            <tend>150021</tend>
            <tstrand>+1</tstrand>
        </transcript>
        <transcript>
            <tname>ENST00000381663</tname>
            <tstart>122992</tstart>
            <tend>150021</tend>
            <tstrand>+1</tstrand>
        </transcript>
    </gene>
    <gene>
        <gname>ENSG00000214798</gname>
        <gstart>148481</gstart>
        <gend>149027</gend>
        <external_ref>
            <one>UCSC:uc004cpc.1</one>
            <two>Clone_based_ensembl_gene:BX000483.7</two>
        </external_ref>
        <transcript>
            <tname>ENST00000399005</tname>
            <tstart>148481</tstart>
            <tend>149027</tend>
            <tstrand>+1</tstrand>
        </transcript>
    </gene>
    <gene>
        <gname>ENSG00000178605</gname>
        <gstart>150026</gstart>
        <gend>160887 </gend>
        <external_ref>
            <one>UCSC:uc004cpe.1</one>
            <two>HGNC:GTPBP6</two>
            <three>HGNC_automatic_gene:GTPBP6</three>
        </external_ref>
        <transcript>
            <tname>ENST00000326153</tname>
            <tstart>150026</tstart>
            <tend>160887</tend> …我遇到了一个我在Django查询集中从未遇到过的问题.我在一个数据模型类中有超过1,00,000个浮点数据类型(记录)以及外键字段.我想要做的是用以下程序查询这些记录.
那么,请注意只关注小数点后的这个范围(固定)?
如果问题不够清楚请做评论.我会再试一次.
引导我