相关疑难解决方法(0)

刮一个动态的网站

什么是抓住动态网站的最佳方法,其中大部分内容是由似乎是ajax请求生成的?我之前有过使用Mechanize,BeautifulSoup和python组合的经验,但我还有新的东西.

- 编辑 - 更多细节:我正在试图刮掉CNN 主数据库.那里有大量的信息,但似乎没有api.

python ajax screen-scraping beautifulsoup

12
推荐指数
2
解决办法
7598
查看次数

如何使机械化等待网页'完整'加载?

我想抓一些动态加载其组件的网页.这个页面有一个onload脚本,我在浏览器中输入URL后3-5秒就可以看到完整的页面.

问题是,当我打电话时br.open('URL'),响应是0秒的网页.HTML(我想要的)和结果之间有3-5秒的差异br.open('URL').

python mechanize

10
推荐指数
2
解决办法
1万
查看次数

urllib2 没有返回完整的网页

我刚开始使用 Python,我正在尝试使用 urllib2 请求站点的 html 源代码。但是,当我尝试从站点获取 html 内容时,我没有获取完整的 html 内容 - 缺少标签。我知道当我在 firebug 中查看站点时,它们会丢失,代码会显示出来。这是由于我请求数据的方式 - 还是由于网站?如果是这样,有没有办法在 python 中获取站点的完整源代码,然后解析它?

目前我用来请求内容和我正在尝试的网站的代码是:

import urllib2

url = 'http://marinetraffic.com/ais/'
response = urllib2.urlopen(url)
html = response.read()
print(html)
Run Code Online (Sandbox Code Playgroud)

特别是 - div id="map_area" - 之间的内容缺失。非常感谢任何帮助/指示!

python web-scraping

5
推荐指数
1
解决办法
1719
查看次数