小编Ken*_*nny的帖子

Beautifulsoup 不返回页面的完整 HTML

我已经在该网站上挖掘了一段时间,但无法找到解决我的问题的方法。我对网页抓取相当陌生,并试图使用漂亮的汤简单地从网页中提取一些链接。

url = "https://www.sofascore.com/pt/futebol/2018-09-18"
page = urlopen(url).read()
soup = BeautifulSoup(page, "lxml")
print(soup)
Run Code Online (Sandbox Code Playgroud)

在最基本的层面上,我要做的就是访问网站内的特定标签。我可以自己解决其余的问题,但我挣扎的部分是我正在寻找的标签不在输出中。

例如:使用内置的 find() 我可以获取以下 div 类标签: class="l__grid js-page-layout"

然而,我实际上要寻找的是嵌入在树中较低级别的标记的内容。
js-event-list-tournament-events

当我对较低级别的标签执行相同的查找操作时,我没有得到任何结果。

使用基于 Azure 的 Jupyter Notebook,我尝试了许多解决 stackoverflow 上类似问题的解决方案,但没有成功。

谢谢!肯尼

python beautifulsoup web-scraping

3
推荐指数
1
解决办法
5750
查看次数

标签 统计

beautifulsoup ×1

python ×1

web-scraping ×1