在使用lxml解析XML文档时,我想查找特定标签的开始和结束行号。我可以使用上的sourceline属性来找到起始标签的位置lxml.etree.Element,但是我在寻找结束标签的行号方面很费力。
我尝试的一个简单例子:
import lxml.etree as ET
xml_sample = b'''<?xml version="1.0" encoding="utf-8"?>
<collection>
<item>
<value>foo</value>
</item>
<item>
<value>
bar
</value>
</item>
</collection>'''
for el in ET.fromstring(xml_sample).getroottree().findall('//value'):
print('Found value "{el.text}" starting on line {el.sourceline} '
'and ending on line ???.'.format(el=el))
Run Code Online (Sandbox Code Playgroud)
value在上面的示例中,是否可以获取元素的结束标记行号?
随着xml.etree.ElementTree.tostring()招:
...
root = ET.fromstring(xml_sample)
for el in root.findall('.//value'):
endline_num = el.sourceline + (len(ET.tostring(el).strip().split()) - 1)
print('Found value "{el.text}" starting on line {el.sourceline} '
'and ending on line {end_num}.'.format(el=el, end_num=endline_num))
Run Code Online (Sandbox Code Playgroud)
输出:
Found value "foo" starting on line 4 and ending on line 4.
Found value "
bar
" starting on line 7 and ending on line 9.
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
495 次 |
| 最近记录: |