在 python 中使用 selenium 进行分页导航

Question

在 python 中使用 selenium 进行分页导航

Abd*_*mac 2 python selenium web-scraping selenium-webdriver

我正在使用 Python 和 Selenium 抓取这个网站。我有代码工作，但它目前只抓取第一页，我想遍历所有页面并将它们全部抓取，但它们以一种奇怪的方式处理分页，我将如何浏览页面并逐个抓取它们？

分页 HTML：

<div class="pagination">
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,1" title="Go to first page">First</a>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,1" title="Go to previous page">Prev</a>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,1" title="Go to page 1">1</a>
    <span class="current">2</span>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,3" title="Go to page 3">3</a>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,4" title="Go to page 4">4</a>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,3" title="Go to next page">Next</a>
    <a href="/PlanningGIS/LLPG/WeeklyList/41826123,4" title="Go to last page">Last</a>
</div>

Run Code Online (Sandbox Code Playgroud)

刮刀：

import re
import json
import requests
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver.chrome.options import Options

options = Options()
# options.add_argument('--headless')
options.add_argument("start-maximized")
options.add_argument('disable-infobars')
driver=webdriver.Chrome(chrome_options=options, 
executable_path=r'/Users/weaabduljamac/Downloads/chromedriver')

url = 'https://services.wiltshire.gov.uk/PlanningGIS/LLPG/WeeklyList'
driver.get(url)

def getData():
  data = []
  rows = driver.find_element_by_xpath('//*[@id="form1"]/table/tbody').find_elements_by_tag_name('tr')
 for row in rows:
    app_number = row.find_elements_by_tag_name('td')[1].text
    address =  row.find_elements_by_tag_name('td')[2].text
    proposals =  row.find_elements_by_tag_name('td')[3].text
    status =  row.find_elements_by_tag_name('td')[4].text
    data.append({"CaseRef": app_number, "address": address, "proposals": proposals, "status": status})
print(data)
return data


def main():
 all_data = []
 select = Select(driver.find_element_by_xpath("//select[@class='formitem' and @id='selWeek']"))
 list_options = select.options

 for item in range(len(list_options)):
    select = Select(driver.find_element_by_xpath("//select[@class='formitem' and @id='selWeek']"))
    select.select_by_index(str(item))
    driver.find_element_by_css_selector("input.formbutton#csbtnSearch").click()
    all_data.extend( getData() )
    driver.find_element_by_xpath('//*[@id="form1"]/div[3]/a[4]').click()
    driver.get(url)

 with open( 'wiltshire.json', 'w+' ) as f:
    json.dump( all_data, f )
 driver.quit()


if __name__ == "__main__":
    main()

Run Code Online (Sandbox Code Playgroud)

Answer 1

Shi*_*hra 6

在继续自动化任何场景之前，请始终写下您将要执行的手动步骤来执行场景。您想要的手动步骤（我从问题中了解到）是-

1) 前往网站 - https://services.wiltshire.gov.uk/PlanningGIS/LLPG/WeeklyList

2) 选择第一周选项

3）点击搜索

4) 获取每一页的数据

5）再次加载url

6) 选择第二周选项

7）点击搜索

8) 获取每一页的数据

.. 等等。

您有一个循环来选择不同的周，但在周选项的每个循环迭代中，您还需要包含一个循环来迭代所有页面。由于您没有这样做，因此您的代码仅返回第一页的数据。

另一个问题是您如何定位“下一步”按钮 -

driver.find_element_by_xpath('//*[@id="form1"]/div[3]/a[4]').click()

Run Code Online (Sandbox Code Playgroud)

您正在选择第四个<a>元素，这当然不是健壮的，因为在不同的页面中，下一步按钮的索引会有所不同。相反，使用这个更好的定位器 -

driver.find_element_by_xpath("//a[contains(text(),'Next')]").click()

Run Code Online (Sandbox Code Playgroud)

创建循环的逻辑将遍历页面 -

首先，您将需要页数。我通过在“下一步”按钮<a> 之前找到来做到这一点。根据下面的屏幕截图，很明显该元素的文本将等于页数 -

——

我使用以下代码做到了-

number_of_pages = int(driver.find_element_by_xpath("//a[contains(text(),'Next')]/preceding-sibling::a[1]").text)

Run Code Online (Sandbox Code Playgroud)

现在，一旦您的页数为number_of_pages，您只需单击“下一步”按钮number_of_pages - 1次！

您的main功能的最终代码-

def main():
 all_data = []
 select = Select(driver.find_element_by_xpath("//select[@class='formitem' and @id='selWeek']"))
 list_options = select.options

 for item in range(len(list_options)):
    select = Select(driver.find_element_by_xpath("//select[@class='formitem' and @id='selWeek']"))
    select.select_by_index(str(item))
    driver.find_element_by_css_selector("input.formbutton#csbtnSearch").click()
    number_of_pages = int(driver.find_element_by_xpath("//a[contains(text(),'Next')]/preceding-sibling::a[1]").text)
    for j in range(number_of_pages - 1):
      all_data.extend(getData())
      driver.find_element_by_xpath("//a[contains(text(),'Next')]").click()
      time.sleep(1)
    driver.get(url)

 with open( 'wiltshire.json', 'w+' ) as f:
    json.dump( all_data, f )
 driver.quit()

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，2 月前
查看次数：	10478 次
最近记录：	6 年，5 月前