使用ElementTree（python）解析xml时如何删除无效字符

Question

使用ElementTree（python）解析xml时如何删除无效字符

Mat*_*ias 2 python xml encoding elementtree

我正在尝试使用 python，特别是 ElementTree，将一个包含约 15,000 个 xml 文件的文件夹导入到 mongo db。大约 5% 的文件中似乎存在无效字符，主要是 &。文件编码为“ISO-8859-1”，编码在 xml 文件中声明。

是否有内置方法可以省略字符或自动将其转换为有效的内容？

这是我目前使用的代码：

    from pymongo import MongoClient
    import xml.etree.ElementTree as ET
    import os
    import sys


    def get_files(d):
            return [os.path.join(d, f) for f in os.listdir(d) if os.path.isfile(os.path.join(d,f))]

    files = get_files("/path/to/data")

    xmls = []
    for file in files:
        tree = ET.parse(file)
                root = tree.getroot()
        xmls.append(root)


    #Results in:
    In [113]: xmls = []
         ...: for file in files:
         ...:     tree = ET.parse(file)
         ...:     root = tree.getroot()
         ...:     xmls.append(root)
      File "<string>", line unknown
    ParseError: not well-formed (invalid token): line 223, column 74

Run Code Online (Sandbox Code Playgroud)

果然，接下来要解析的文档的第 223 行第 74 列上有一个 &。

Answer 1

Mat*_*ias 5

对于关闭，这是我的选择：

我没有使用 ElementTree，而是使用了带有恢复选项的 lxml：

for file in files:
    parser = etree.XMLParser(ns_clean=True, recover = True)
    tree = etree.parse(file, parser=parser)
    root = tree.getroot()
    xmls.append(root)

Run Code Online (Sandbox Code Playgroud)

这并不能解决根本问题，但足以完成手头的任务。

归档时间：	11 年，8 月前
查看次数：	3836 次
最近记录：	11 年，7 月前