小编mch*_*ctt的帖子

如何使用lxml在XHTML文档中查找元素文本

多年来我一直在抨击我,我一定是在做一些愚蠢的事情.

我试图检索所有可能的维基百科支持的语言,并通过遍历List_of_Wikipedias上的表将它们输出到文本文件.

这是我到目前为止的python代码,它只是试图检索其中一个表:

import httplib
from lxml import etree

def main():
    conn = httplib.HTTPConnection("meta.wikimedia.org")
    conn.request("GET","/wiki/List_of_Wikipedias")
    res = conn.getresponse()
    root = etree.fromstring(res.read())
    table = root.xpath('//table')
    print table

main()

Run Code Online (Sandbox Code Playgroud)

在我的机器上,这只打印一个空列表.为了提高速度,我在本地缓存了页面并使用了:

wikipage = open("wikipage.html")
root = lxml.parse(wikipage)

Run Code Online (Sandbox Code Playgroud)

但这没有任何影响(除了显而易见的加速).我也试过了

lxml.find('table')

Run Code Online (Sandbox Code Playgroud)

和:

for element in root.iter():
    print("%s - %s" % (element.tag, element.text))

Run Code Online (Sandbox Code Playgroud)

它成功地打印出所有元素,所以我知道正在创建树.

我究竟做错了什么？

任何帮助,将不胜感激.谢谢.

python xpath lxml

mch*_*ctt

lucky-day

5
推荐指数

1
解决办法

4922
查看次数

如何在Java中初始化依赖于彼此的类？

说我有班级签名

Class1(Class2 c);
Class2(Class1 c);

Run Code Online (Sandbox Code Playgroud)

我如何初始化两者？

java dependencies class

mch*_*ctt

lucky-day

5
推荐指数

2
解决办法

3517
查看次数

标签统计

class ×1

dependencies ×1

java ×1

lxml ×1

python ×1

xpath ×1

如何使用lxml在XHTML文档中查找元素文本

如何在Java中初始化依赖于彼此的类？

标签 统计

小编mch_ctt的帖子

标签统计