多年来我一直在抨击我,我一定是在做一些愚蠢的事情.
我试图检索所有可能的维基百科支持的语言,并通过遍历List_of_Wikipedias上的表将它们输出到文本文件.
这是我到目前为止的python代码,它只是试图检索其中一个表:
import httplib
from lxml import etree
def main():
conn = httplib.HTTPConnection("meta.wikimedia.org")
conn.request("GET","/wiki/List_of_Wikipedias")
res = conn.getresponse()
root = etree.fromstring(res.read())
table = root.xpath('//table')
print table
main()
Run Code Online (Sandbox Code Playgroud)
在我的机器上,这只打印一个空列表.为了提高速度,我在本地缓存了页面并使用了:
wikipage = open("wikipage.html")
root = lxml.parse(wikipage)
Run Code Online (Sandbox Code Playgroud)
但这没有任何影响(除了显而易见的加速).我也试过了
lxml.find('table')
Run Code Online (Sandbox Code Playgroud)
和:
for element in root.iter():
print("%s - %s" % (element.tag, element.text))
Run Code Online (Sandbox Code Playgroud)
它成功地打印出所有元素,所以我知道正在创建树.
我究竟做错了什么?
任何帮助,将不胜感激.谢谢.