小编Rya*_*eld的帖子

从 BeautifulSoup 页面检索所有信息

我正在尝试抓取 OldNavy 网页上产品的网址。然而，它只给出了产品列表的一部分，而不是整个列表（例如，当 URL 远远超过 8 个时，只给出 8 个）。我希望有人可以帮助并找出问题所在。

from bs4 import BeautifulSoup
from selenium import webdriver
import html5lib
import platform
import urllib
import urllib2
import json


link = http://oldnavy.gap.com/browse/category.do?cid=1035712&sop=true
base_url = "http://www.oldnavy.com"

driver = webdriver.PhantomJS()
driver.get(link)
html = driver.page_source
soup = BeautifulSoup(html, "html5lib")
bigDiv = soup.findAll("div", class_="sp_sm spacing_small")
for div in bigDiv:
  links = div.findAll("a")
  for i in links:
    j = j + 1
    productUrl = base_url + i["href"]
    print productUrl

Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-crawler web-scraping selenium-webdriver

Rya*_*eld

lucky-day

2
推荐指数

1
解决办法

3858
查看次数