如何使用Selenium/Python在分页站点上抓取URL

Fed*_*o C 1 python selenium web-scraping selenium-webdriver

我想从分页站点获取一些链接URL.我正在学习一些教程,因为我对Selenium(或Python)不是很熟悉.

无论如何,通过下面的循环,我可以从每个页面获得第一个网址,但每页需要获得10个网址:

browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
time.sleep(5)

x = 0
while (x < 5):
    print(browser.find_element_by_xpath('//a[contains(text(),"Completo")]')).get_attribute("href")
    browser.find_element_by_xpath("//td[2]/a").click() # Click on next button
    time.sleep(5)
    x += 1
Run Code Online (Sandbox Code Playgroud)

要获取我尝试使用的每个页面的所有URL find_elements_by_xpath(),但该函数返回一个列表,并且我收到一条错误消息,指出列表元素没有该属性get_attribute.

如果我删除了get属性部分,我确实每页获得10行,但不是以url格式.我得到了这种格式的每个页面的列表:

位于0x7f3621cc6dd0的selenium.webdriver.remote.webelement.WebElement对象,位于0x7f3621cc6d90的selenium.webdriver.remote.webelement.WebElement对象,位于0x7f3621cc6f90的selenium.webdriver.remote.webelement.WebElement对象,selenium.webdriver.remote.webelement. WebElement对象位于0x7f3621cc6f50>,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621cc6ed0>,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c62210>,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c6a110>,selenium. webdriver.remote.webelement.WebElement对象位于0x7f3621c6a690>,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75950>,selenium.webdriver.remote.webelement.WebElement对象位于0x7f3621c75990>

那么,如何构建一个获取url然后转到下一页的循环等的正确方法呢?

任何帮助表示赞赏.

ale*_*cxe 5

这是完整的想法和实现:

  • 从页面底部的段落中获取最大页数
  • 从当前页面中提取链接
  • 循环从下一页到最大页面
  • 在循环中,单击下一页链接并提取链接

笔记:

  • 而不是明确等待所需元素time.sleep()更好
  • 提取最大页面数量(1910在这种情况下),这里我使用一个\d+ de (\d+)带有捕获组 的正则表达式,(\d+)其中\d+匹配一个或多个数字
  • href要从多个元素中获取属性,您只需要遍历它们并调用get_attribute()每个元素(使用下面的"list comprehension")
  • 我不完全确定你想要抓取哪些链接,但我假设这些链接指向页面上每个块底部的文件(链接到文件)

码:

import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


def extract_data(browser):
    links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
    return [link.get_attribute('href') for link in links]


browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")

# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)

# extract from the current (1) page
print "Page 1"
print extract_data(browser)

# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
    print "Page %d" % page

    next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()

    print extract_data(browser)
    print "-----"
Run Code Online (Sandbox Code Playgroud)

打印:

Page 1
[u'http://www.scba.gov.ar/falloscompl/scba/2007/03-16/iniciales.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2005/05-26/iniciales.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2012/10-31/inicialesb.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2006/11-08/i68854.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2010/12-15/inicialesrp.doc', u'http://www.scba.gov.ar/falloscompl/scba/2012/07-04/a70660.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/11-24/a69656.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/11-24/a69691.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/11-24/a69693.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/11-24/a69772.doc']
Page 2
[u'http://www.scba.gov.ar/falloscompl/scba/2010/11-24/a69877.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-14/a68974.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68978.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68979.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68982.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68983.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a69181.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a69588.doc', u'http://www.scba.gov.ar/falloscompl/scba/2004/12-09/p72338.doc', u'http://www.scba.gov.ar/falloscompl/scba/2006/08-16/iniciales.doc']
-----
Page 3
[u'http://www.scba.gov.ar/falloscompl/scba/inter/2010/12-15/rp108872.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2007/02-14/i69014-2.doc', u'http://www.scba.gov.ar/falloscompl/scba/2011/05-04/a68445.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68976.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68977.doc', u'http://www.scba.gov.ar/falloscompl/scba/2010/07-07/a68981.doc', u'http://www.scba.gov.ar/falloscompl/scba/2004/12-10/iniciales.doc', u'http://www.scba.gov.ar/falloscompl/scba/2014/11-20/iniciales.doc', u'http://www.scba.gov.ar/falloscompl/scba/inter/2013/08-21/a72539.doc', u'http://www.scba.gov.ar/falloscompl/scba/2004/06-23/iniciales.doc']
-----
...
Run Code Online (Sandbox Code Playgroud)