使用python刮擦ajax页面

Lyn*_*nob 15 python ajax screen-scraping scrapy web-scraping

我已经看到了关于抓取ajax的这个问题,但是那里没有提到python.我考虑过使用scrapy,我相信他们有一些关于这个主题的文档,但是你可以看到网站已关闭.所以我不知道该怎么做.我想做以下事情:

我只有一个url,example.com你通过点击提交从一个页面到另一个页面,url不会改变,因为他们使用ajax来显示内容.我想刮掉每个页面的内容,怎么做?

让我们说我只想刮掉数字,除了scrapy还有什么可以做到的吗?如果没有,你会给我一个关于如何做到的片段,只是因为他们的网站已关闭,所以我无法访问文档.

ale*_*cxe 33

首先,可以在https://scrapy.readthedocs.org/en/latest/上找到scrapy文档.

谈到在网络抓取时处理ajax.基本上,这个想法很简单:

  • 打开浏览器开发者工具,网络选项卡
  • 去目标网站
  • 点击提交按钮,看看有什么XHR要求是要在服务器
  • XHR在你的蜘蛛中模拟这个请求

另见:

希望有所帮助.