如何使用lxml,python解析html

Question

如何使用lxml,python解析html

我有一些html文件:

<html>
 <body>
   <span class="text">One</span>some text1</br>
   <span class="cyrillic">???</span>some text2</br>
 </body>
</html>

Run Code Online (Sandbox Code Playgroud)

如何使用带Python的lxml获取"some text1"和"some text2"？

Answer 1

Hug*_*ell 5

import lxml.html

doc = lxml.html.document_fromstring("""<html>
 <body>
   <span class="text">One</span>some text1</br>
   <span class="cyrillic">???</span>some text2</br>
 </body>
</html>
""")

txt1 = doc.xpath('/html/body/span[@class="text"]/following-sibling::text()[1]')
txt2 = doc.xpath('/html/body/span[@class="cyrillic"]/following-sibling::text()[1]')

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年前
查看次数：	4378 次
最近记录：	15 年前