我正在尝试使用以下Python语法从以下URL抓取html内容:http ://www.dlib.org/dlib/november14/beel/11beel.html:
s="http://www.dlib.org/dlib/november14/beel/11beel.html"
content = requests.get(s)
tree = html.fromstring(content.text)
titoli = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/h3/text()')
par = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/p/text()')
articoli = json.dumps({'titoli':titoli,'contenuti':par})
print ("Content-type: json")
print
print (articoli)
Run Code Online (Sandbox Code Playgroud)
主要要求是找到一个XPath查询,以返回页面最有用的div中的每个标签,标签内容和文本,您可以使用以下路径找到它/ html / body / form / table [3] / tr / td / table [5]或在注释行下使用Web检查器:!-内容表-。使用我以前发布的代码无法获取div的全部内容,而只能获取p div中的标题和文本,现在我找不到其他方法。