我可以更改BeautifulSoup关于将XML标记转换为小写的行为吗?

Rob*_*arr 6 python xml beautifulsoup

我正在研究用于解析用XML编写的配置文件的代码,其中XML标签是大小写混合的,并且案例很重要.Beautiful Soup似乎默认将XML标记转换为小写,我想改变这种行为.

我不是第一个就这个问题提出问题的人[见这里 ].但是,我不理解该问题的答案,并且在BeautifulSoup-3.1.0.1中,BeautifulSoup.py似乎不包含任何" encodedName"或" Tag.__str__"的实例.

TML*_*TML 6

import html5lib
from html5lib import treebuilders

f = open("mydocument.html")
parser = html5lib.XMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
document = parser.parse(f)
Run Code Online (Sandbox Code Playgroud)

'document'现在是一个类似BeautifulSoup的树,但保留了标签的情况.有关文档和安装,请参阅html5lib.


Rob*_*arr 2

根据 Beautiful Soup 的创建者/维护者 Leonard Richardson 的说法,你不能