Rob*_*arr 6 python xml beautifulsoup
我正在研究用于解析用XML编写的配置文件的代码,其中XML标签是大小写混合的,并且案例很重要.Beautiful Soup似乎默认将XML标记转换为小写,我想改变这种行为.
我不是第一个就这个问题提出问题的人[见这里 ].但是,我不理解该问题的答案,并且在BeautifulSoup-3.1.0.1中,BeautifulSoup.py似乎不包含任何" encodedName
"或" Tag.__str__
"的实例.
import html5lib
from html5lib import treebuilders
f = open("mydocument.html")
parser = html5lib.XMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
document = parser.parse(f)
Run Code Online (Sandbox Code Playgroud)
'document'现在是一个类似BeautifulSoup的树,但保留了标签的情况.有关文档和安装,请参阅html5lib.
归档时间: |
|
查看次数: |
1853 次 |
最近记录: |