小编mch*_*ctt的帖子

如何使用lxml在XHTML文档中查找元素文本

多年来我一直在抨击我,我一定是在做一些愚蠢的事情.

我试图检索所有可能的维基百科支持的语言,并通过遍历List_of_Wikipedias上的表将它们输出到文本文件.

这是我到目前为止的python代码,它只是试图检索其中一个表:

import httplib
from lxml import etree

def main():
    conn = httplib.HTTPConnection("meta.wikimedia.org")
    conn.request("GET","/wiki/List_of_Wikipedias")
    res = conn.getresponse()
    root = etree.fromstring(res.read())
    table = root.xpath('//table')
    print table

main()
Run Code Online (Sandbox Code Playgroud)

在我的机器上,这只打印一个空列表.为了提高速度,我在本地缓存了页面并使用了:

wikipage = open("wikipage.html")
root = lxml.parse(wikipage)
Run Code Online (Sandbox Code Playgroud)

但这没有任何影响(除了显而易见的加速).我也试过了

lxml.find('table')
Run Code Online (Sandbox Code Playgroud)

和:

for element in root.iter():
    print("%s - %s" % (element.tag, element.text))
Run Code Online (Sandbox Code Playgroud)

它成功地打印出所有元素,所以我知道正在创建树.

我究竟做错了什么?

任何帮助,将不胜感激.谢谢.

python xpath lxml

5
推荐指数
1
解决办法
4922
查看次数

如何在Java中初始化依赖于彼此的类?

说我有班级签名

Class1(Class2 c);
Class2(Class1 c);
Run Code Online (Sandbox Code Playgroud)

我如何初始化两者?

java dependencies class

5
推荐指数
2
解决办法
3517
查看次数

标签 统计

class ×1

dependencies ×1

java ×1

lxml ×1

python ×1

xpath ×1