小编kam*_*111的帖子

使用 BS4 或 Selenium 从 finishline.com 进行网页抓取

我正在尝试使用 Selenium 或 Beautifulsoup 4 从https://www.finishline.com抓取数据。到目前为止,我还没有成功,所以我向 Stackoverflow 寻求帮助 - 希望有人知道绕过抓取保护的方法。

我尝试使用 Beautifulsoup 4 和 Selenium。下面是一些简单的例子。

我的主程序中使用的常规导入:

import requests
import csv
import io
import os
import re
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from datetime import datetime
from bs4 import BeautifulSoup
Run Code Online (Sandbox Code Playgroud)

美丽汤4代码:

data2 = requests.get("https://www.finishline.com/store/product/mens-nike-air-max-95-se-casual-shoes/prod2783292?styleId=AJ2018&colorId=004")
soup2 = BeautifulSoup(data2.text, 'html.parser')

x = soup2.find('h1', attrs={'id': 'title'}).text.strip()
print(x)
Run Code Online (Sandbox Code Playgroud)

硒代码:

options = Options()
options.headless = True
options.add_argument('log-level=3')
driver = webdriver.Chrome(options=options)
driver.get("https://www.finishline.com/store/product/mens-nike-air-max-95-se-casual-shoes/prod2783292?styleId=AJ2018&colorId=004") 
x = driver.find_element_by_xpath("//h1[1]")
print(x)
driver.close()
Run Code Online (Sandbox Code Playgroud)

这两个片段都试图从产品页面获取产品标题。 …

python selenium beautifulsoup web-scraping

5
推荐指数
1
解决办法
537
查看次数

标签 统计

beautifulsoup ×1

python ×1

selenium ×1

web-scraping ×1