用Python解析结构化文本文件(pyparsing)

Question

用Python解析结构化文本文件(pyparsing)

由于我真的不明白的原因,我正在使用的REST API不使用输出JSON或XML,而是使用特殊的结构化文本格式.最简单的形式

SECTION_NAME    entry  other qualifying bits of the entry
                entry2 other qualifying bits
                ...

Run Code Online (Sandbox Code Playgroud)

它们不是制表符分隔的,因为结构可能看似,而是以空格分隔,并且限定位可能包含带空格的单词.SECTION_NAME与条目之间的空间也是可变的,范围从1到几个(6个或更多)空格.

此外,格式的一部分包含表单中的条目

SECTION_NAME entry
  SUB_SECTION more information
  SUB_SECTION2 more information

Run Code Online (Sandbox Code Playgroud)

供参考,实际数据的摘录(某些部分省略),显示结构的使用:

ENTRY       hsa04064                    Pathway
NAME        NF-kappa B signaling pathway - Homo sapiens (human)
DRUG        D09347  Fostamatinib (USAN)
            D09348  Fostamatinib disodium (USAN)
            D09692  Veliparib (USAN/INN)
            D09730  Olaparib (JAN/INN)
            D09913  Iniparib (USAN/INN)
REFERENCE   PMID:21772278
  AUTHORS   Oeckinghaus A, Hayden MS, Ghosh S
  TITLE     Crosstalk in NF-kappaB signaling pathways.
  JOURNAL   Nat Immunol 12:695-708 (2011)

Run Code Online (Sandbox Code Playgroud)

当我试图将这种奇怪的格式解析为更健全的东西(一个可以转换为JSON的字典)时,我不确定该做什么:盲目地分割空间会导致混乱(它也会影响带空格的信息),并且我不确定如何在一个部分开始时能够计算出来.文本操作对于工作是否足够,还是应该使用更复杂的方法？

编辑:

我开始使用pyparsing来完成这项工作,但是多行记录让我感到困惑,这是DRUG的一个例子:

 from pyparsing import *
 punctuation = ",.'`&-"
 special_chars = "\()[]"

 drug = Keyword("DRUG")
 drug_content = Word(alphanums) + originalTextFor(OneOrMore(Word(
      alphanums + special_chars))) + ZeroOrMore(LineEnd())
 drug_lines = OneOrMore(drug_content)
 drug_parser = drug + drug_lines

Run Code Online (Sandbox Code Playgroud)

当在示例中应用于DRUG的前3行时,我得到错误的结果(\n转换为实际返回以便于阅读):

 ['DRUG', ['D09347', 'Fostamatinib (USAN)
        D09348  Fostamatinib disodium      (USAN)
        D09692  Veliparib (USAN']]

Run Code Online (Sandbox Code Playgroud)

正如你所看到的,随后的条目总是混在一起,而我期望:

 ['DRUG', [['D09347', 'Fostamatinib (USAN)'], ["D09348", "Fostamatinib disodium (USAN)"],
           ['D09692', ' Veliparib (USAN)']]]

Run Code Online (Sandbox Code Playgroud)

Answer 1

Mih*_*eac 3

我建议您使用基于解析器的方法。例如，Python PLY可用于完成手头的任务。

@Einar另一个解析选项是http://pyparsing.wikispaces.com/，它有合理的文档和大量的示例 (2认同)

归档时间：	13 年，8 月前
查看次数：	3712 次
最近记录：	13 年，8 月前