相关疑难解决方法(0)

对大型XML文件使用Python Iterparse

我需要在Python中编写一个解析器,它可以在没有太多内存(仅2 GB)的计算机上处理一些非常大的文件(> 2 GB).我想在lxml中使用iterparse来做到这一点.

我的文件格式为:

<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
</item>

Run Code Online (Sandbox Code Playgroud)

到目前为止我的解决方案是:

from lxml import etree

context = etree.iterparse( MYFILE, tag='item' )

for event, elem in context :
      print elem.xpath( 'description/text( )' )

del context

Run Code Online (Sandbox Code Playgroud)

不幸的是,这个解决方案仍然占用了大量的内存.我认为问题在于,在处理每个"ITEM"后,我需要做一些事情来清理空的孩子.在处理我的数据到正确清理之后,有人可以提供一些建议吗？

python xml lxml elementtree large-files

Dav*_*hon

2015 11-20

36
推荐指数

2
解决办法

3万
查看次数

在python中解析一个大的(~40GB)XML文本文件

我有一个我想用python解析的XML文件.什么是最好的方法呢？考虑到内存整个文档将是灾难性的,我需要以某种方式一次读取一个节点.

我所知道的现有XML解决方案:

元素树
minixml

但是因为我提到的问题,我担心他们不会上班.另外我无法在文本编辑器中打开它 - 用于处理巨型文本文件的任何关于genrao的好技巧？

python xml large-files xml-parsing

lol*_*ter

lucky-day

3
推荐指数

1
解决办法

2760
查看次数

标签统计

large-files ×2

python ×2

xml ×2

elementtree ×1

lxml ×1

xml-parsing ×1

对大型XML文件使用Python Iterparse

在python中解析一个大的(~40GB)XML文本文件

标签 统计

标签统计