如何抓取网站内容(*复杂* iframe、javascript 提交)

Raw*_*awr 2 javascript php iframe web-scraping

我以前做过网络抓取,但从未如此复杂。我想从学校网站获取课程信息。然而,所有课程信息都显示在网络爬虫的噩梦中。

首先,当您单击“课程表”网址时,它会首先引导您浏览其他几个页面(我相信是设置 cookie 并检查其他垃圾)。

然后它最终加载一个带有 iframe 的页面,该页面显然只喜欢从机构网页(即 arizona.edu)内加载时加载。

从那里开始,表单提交必须通过按钮进行,这些按钮实际上并不重新加载页面,而只是提交 AJAX 查询,我认为它只是操纵 iframe。

这个查询对我来说特别难以复制。我一直在使用 PHP 和curl 来模拟浏览器访问初始页面,收集正确的cookie 等。但我认为我的curl 函数发送的标头有问题,因为它永远不允许我在初始“搜索表单”加载后执行任何类型的查询。

任何帮助都是极好的...

http://www.arizona.edu/students/registering-classes ->“课程表”

或者就在这里: http: //schedule.arizona.edu/

c69*_*c69 6

如果您需要抓取大量使用 JS/AJAX 的网站 - 您需要比 php 更强大的东西;)

首先,它必须是能够执行 JS 的完整浏览器,其次,必须有一些用于自动浏览的 api。

假设您是一个孩子(谁还需要解析学校) - 尝试使用 Firefox 和iMacros。如果您是经验丰富的老手,请考虑 Selenium。