有一个xml文件:
<body>
<entry>
I go to <hw>to</hw> to school.
</entry>
</body>
Run Code Online (Sandbox Code Playgroud)
由于某种原因,我在使用 lxml 解析器解析它之前将其更改<hw>为<hw>和</hw>to 。</hw>
<body>
<entry>
I go to <hw>to</hw> to school.
</entry>
</body>
Run Code Online (Sandbox Code Playgroud)
但是修改解析的xml数据后,我想获取一个<hw>元素,而不是<hw>. 我怎样才能做到这一点?
首先找到一个unescape函数:
from xml.sax.saxutils import unescape
entry=body[0]
Run Code Online (Sandbox Code Playgroud)
取消转义并将其替换为原来的:
body.replace(entry, e.fromstring(unescape(e.tounicode(entry))))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7032 次 |
| 最近记录: |