如何抓取网站内容（复杂 iframe、javascript 提交）

Question

我以前做过网络抓取，但从未如此复杂。我想从学校网站获取课程信息。然而，所有课程信息都显示在网络爬虫的噩梦中。

首先，当您单击“课程表”网址时，它会首先引导您浏览其他几个页面（我相信是设置 cookie 并检查其他垃圾）。

然后它最终加载一个带有 iframe 的页面，该页面显然只喜欢从机构网页（即 arizona.edu）内加载时加载。

从那里开始，表单提交必须通过按钮进行，这些按钮实际上并不重新加载页面，而只是提交 AJAX 查询，我认为它只是操纵 iframe。

这个查询对我来说特别难以复制。我一直在使用 PHP 和curl 来模拟浏览器访问初始页面，收集正确的cookie 等。但我认为我的curl 函数发送的标头有问题，因为它永远不允许我在初始“搜索表单”加载后执行任何类型的查询。

任何帮助都是极好的...

或者就在这里： http: //schedule.arizona.edu/

Answer 1

如果您需要抓取大量使用 JS/AJAX 的网站 - 您需要比 php 更强大的东西；）

首先，它必须是能够执行 JS 的完整浏览器，其次，必须有一些用于自动浏览的 api。

假设您是一个孩子（谁还需要解析学校） - 尝试使用 Firefox 和iMacros。如果您是经验丰富的老手，请考虑 Selenium。

如何抓取网站内容（*复杂* iframe、javascript 提交）