小编Pog*_*gio的帖子

XPath / Python-如何在<div>中获取不同的html标签和文本

我正在尝试使用以下Python语法从以下URL抓取html内容:http ://www.dlib.org/dlib/november14/beel/11beel.html:

    s="http://www.dlib.org/dlib/november14/beel/11beel.html"
    content = requests.get(s)
    tree = html.fromstring(content.text)
    titoli = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/h3/text()')
    par = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/p/text()')
    articoli = json.dumps({'titoli':titoli,'contenuti':par})
    print ("Content-type: json")
    print
    print (articoli)
Run Code Online (Sandbox Code Playgroud)

主要要求是找到一个XPath查询,以返回页面最有用的div中的每个标签,标签内容和文本,您可以使用以下路径找到它/ html / body / form / table [3] / tr / td / table [5]或在注释行下使用Web检查器:!-内容表-。使用我以前发布的代码无法获取div的全部内容,而只能获取p div中的标题和文本,现在我找不到其他方法。

html python xpath

4
推荐指数
1
解决办法
3007
查看次数

标签 统计

html ×1

python ×1

xpath ×1