BeautifulSoup找不到网页上存在的类？

Question

BeautifulSoup找不到网页上存在的类？

所以我试图刮掉以下网页https://www.scoreboard.com/uk/football/england/premier-league/,

具体是预定和结束的结果.因此,我试图寻找元素class = "stage-finished" or "stage-scheduled".但是,当我刮擦网页并打印出page_soup包含的内容时,它不包含这些元素.

我找到另一个SO问题并回答说这是因为它是通过AJAX加载的,我需要查看chrome dev工具上的网络选项卡下的XHR,找到加载必要数据的文件,但是看起来不像到那里？

import bs4
import requests
from bs4 import BeautifulSoup as soup
import csv
import datetime

myurl = "https://www.scoreboard.com/uk/football/england/premier-league/"
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'}
page = requests.get(myurl, headers=headers)

page_soup = soup(page.content, "html.parser")

scheduled = page_soup.select(".stage-scheduled")
finished = page_soup.select(".stage-finished")
live = page_soup.select(".stage-live")
print(page_soup)
print(scheduled[0])

Run Code Online (Sandbox Code Playgroud)

上面的代码当然会抛出错误,因为调度的数组中没有内容.

我的问题是,我如何获取我正在寻找的数据？

我将XHR文件的内容复制到记事本中,并搜索了stage-finished和其他标签,但没有找到任何内容.我在这里容错了吗？

Answer 1

jxp*_*hon 5

该页面是 JavaScript 呈现的。你需要硒。下面是一些开始的代码：

from selenium import webdriver

url = 'https://www.scoreboard.com/uk/football/england/premier-league/'

driver = webdriver.Chrome()
driver.get(url)
stages = driver.find_elements_by_class_name('stage-scheduled')
driver.close()

Run Code Online (Sandbox Code Playgroud)

或者您可以传入driver.content该BeautifulSoup方法。像这样：

soup = BeautifulSoup(driver.page_source, 'html.parser')

Run Code Online (Sandbox Code Playgroud)

注意：您需要先安装一个 webdriver。我安装了 chromedriver。

祝你好运！

归档时间：	7 年，5 月前
查看次数：	496 次
最近记录：	7 年，5 月前