小编ark*_*tra的帖子

从纯文本中提取信息并使用DOM写入XML

目前,我正在设计糖生物学领域的一些格式转换工具.格式转换涉及从文本文件转到字段中标准的XML文件.大多数情况下,我们获得的数据包含下面的纯文本文件中感兴趣的信息.实际文件在一行中包含所有这些内容.读取和拆分此文本以获取信息是微不足道的(可能不直观),但XML是问题所在.

[][b-D-GlcpNAc]
    {[(4+1)][b-D-GlcpNAc]
        {[(4+1)][b-D-Manp]
            {[(3+1)][a-D-Manp]
                {[(2+1)][a-D-Manp]{}
            }
        [(6+1)][a-D-Manp]
            {[(3+1)][a-D-Manp]{}
            [(6+1)][a-D-Manp]{}
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

如何解释这个:

  1. ww-w +形式的所有东西都是与另一个相连的糖.链接由卷曲{显示.
  2. 4 + 1,3 + 1等表示一种糖与另一种糖上的碳键.因此,前一个碳的第四个碳链接到后一个碳的第一个碳.
  3. {}这表明没有与糖相关的额外糖
  4. curlies刚关闭那一层.

您可以阅读XML并了解链接的工作原理.但如果你们想要更详细的解释,那就问问吧.

XML的外观如下所示.

<?xml version="1.0" encoding="UTF-8"?>
<GlydeII>
    <molecule subtype="glycan" id="From_GlycoCT_Translation">
            <residue subtype="base_type" partid="1" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dglc-HEX-1:5" />
            <residue subtype="substituent" partid="2" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=n-acetyl" />
            <residue subtype="base_type" partid="3" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dglc-HEX-1:5" />
            <residue subtype="substituent" partid="4" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=n-acetyl" />
            <residue subtype="base_type" partid="5" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=b-dman-HEX-1:5" />
            <residue subtype="base_type" partid="6" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" />
            <residue subtype="base_type" partid="7" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" />
            <residue subtype="base_type" partid="8" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" />
            <residue subtype="base_type" partid="9" ref="http://www.monosaccharideDB.org/GLYDE-II.jsp?G=a-dman-HEX-1:5" />
            <residue subtype="base_type" partid="10" …
Run Code Online (Sandbox Code Playgroud)

python xml dom bioinformatics

5
推荐指数
1
解决办法
256
查看次数

标签 统计

bioinformatics ×1

dom ×1

python ×1

xml ×1