使用Python刮擦Ajax

eam*_*234 3 python selenium screen-scraping beautifulsoup pyqt4

我正在尝试获取此网站表格中的数据,该网站在页面加载后通过jquery更新(我有权限):

http://whichchart.com/

我目前使用selenium和beautifulsoup来获取数据,但是因为这些数据在html源代码中不可见,所以我无法访问它.我试过PyQt4但它同样没有获得更新的html源代码.

这些值在firebug和chrome开发人员中可见,所以有没有任何python包可以利用它并将其提供给beautifulsoup?

我不是一个庞大的技术人员,所以我想要一个可以在Python或下一个最简单的软件类型中运行的解决方案.

我知道我可以通过专有的"屏幕刮板"软件获得它,但这很昂贵.

Mak*_*nko 5

Page正在进行AJAX调用以获取数据到http://whichchart.com/service.php?action=NewcastleCoal,它返回JSON中的值.所以你可以做到以下几点:

  • 使用urllib使用HTTP获取数据
  • 用json库读取数据读取方法
  • 现在你有一个python对象要处理

如果您需要处理HTML页面内容,我建议使用像BeautifulSoup或scrapy这样的库