BeautifulSoup 不抓取动态内容

Question

BeautifulSoup 不抓取动态内容

Mat*_*hew 1 html python dynamic beautifulsoup

我遇到的问题是我想从此页面获取相关链接：http://support.apple.com/kb/TS1538

如果我在 Chrome 或 Safari 中检查 Element，我可以看到<div id="outer_related_articles">列出的文章和所有文章。如果我尝试使用 BeautifulSoup 抓取它，它将抓取页面和除相关文章之外的所有内容。

这是我到目前为止所拥有的：

import urllib2
from bs4 import BeautifulSoup
url = "http://support.apple.com/kb/TS1538"
response = urllib2.urlopen(url)
soup = BeautifulSoup(response.read())
print soup

Run Code Online (Sandbox Code Playgroud)

Answer 1

Emi*_*nov 5

此部分是使用 Javascript 加载的。禁用浏览器的 JavaScript 以查看如何BeautifulSoup“查看”页面。

从这里您有两个选择：

使用无头浏览器，它将执行 Javascript。请参阅有关此的问题：Headless Browser for Python（需要 Javascript 支持！）
尝试弄清楚苹果网站如何加载内容并模拟它 - 它可能对某个地址进行 AJAX 调用。

经过一番挖掘后，它似乎向这个地址发出了请求（http://km.support.apple.com/kb/index?page=kmdata&requestid=2&query=iOS%3A%20Device%20not%20recognized%20in%20iTunes%20for %20Windows&locale=en_US&src=support_site.lated_articles.TS1538&excludeids=TS1538&callback=KmLoader.receiveSuccessKmLoader.receiveSuccess ）并使用 JSONP 以接收函数的名称加载结果。使用 Chrome 开发工具的 Firebug 更详细地检查页面。

归档时间：	12 年，9 月前
查看次数：	8016 次
最近记录：	5 年，6 月前