gil*_*ipf -1 python string pretty-print
我正在输出相当庞大的XML结构到文件,我希望用户能够启用/禁用漂亮的打印.
我正在使用大约150MB的数据,当我尝试xml.etree.ElementTree从它的元素对象构建树结构时,它使用了大量的内存,所以我通过存储原始字符串并输出来手动执行此操作.write().我的输出序列如下所示:
ofile.write(pretty_print(u'\
\t\t<LexicalEntry id="%s">\n\
\t\t\t<feat att="languageCode" val="cz"/>\n\
\t\t\t<Lemma>\n\
\t\t\t\t<FormRepresentation>\n\
\t\t\t\t\t<feat att="writtenForm" val="%s"/>\n\
\t\t\t\t</FormRepresentation>\n\
\t\t\t</Lemma>\n\
\t\t\t<Sense>%s\n' % (str(lex_id), word['word'], '' if word['pos']=='' else '\n\t\t\t\t<feat att="partOfSpeech" val="%s"/>' % word['pos'])))
Run Code Online (Sandbox Code Playgroud)
在.write()我调用我的函数pretty_print 里面,根据命令行选项,应该删除所有制表符和换行符
o_parser = OptionParser()
# ....
o_parser.add_option("-p", "--prettyprint", action="store_true", dest="pprint", default=False)
# ....
def pretty_print(string):
if not options.pprint:
return string.strip('\n\t')
return string
Run Code Online (Sandbox Code Playgroud)
我写了'should',因为它没有,在这种特殊情况下它不会删除任何字符.
但在这种情况下,它工作正常:
for ss in word['synsets']:
ofile.write(pretty_print(u'\t\t\t\t<Sense synset="%s-synset"/>\n' % ss))
Run Code Online (Sandbox Code Playgroud)
我想到的第一件事是替换可能存在一些问题,但是当我在pretty_print 函数中打印传递的字符串时,它看起来非常好.
任何可能导致这种.strip()情况的建议都不起作用?
或者,如果有更好的方法,我会接受任何建议
您的问题是str.strip()只从字符串的开头和结尾删除.
如果要从行的开头和结尾删除它们,您要么str.replace()删除所有实例,要么将其拆分为行并剥离每一行.
另请注意,对于大量字符串,Python支持带有三引号的多行字符串,这将使输入更容易,并且旧样式字符串格式化%已被取代str.format()- 您可能希望在新代码中使用它.
| 归档时间: |
|
| 查看次数: |
280 次 |
| 最近记录: |