使用多处理解析非常大的XML文件

cod*_*000 5 python xml multiprocessing

我有一个巨大的XML文件,我对如何处理它有点不知所措.它是60 GB,我需要阅读它.

我在想是否有办法使用多处理模块来读取python文件?

有没有人有这样做的样本,他们可以指点我?

谢谢

jba*_*ter 4

对于这种大小的文件,我建议您使用流式 XML 解析器。在 Python 中,这将是iterparsecElementTree 或 lxml.etree 中的方法:

http://effbot.org/zone/element-iterparse.htm

  • 好的,那么 iterparse 用于读取 XML,我如何将其分布在多个 CPU 之间以加快数据的读取速度?顺序并不重要。 (5认同)