use*_*135 2 javascript python browser
我正在用scrapy写一个蜘蛛,但是,我遇到了一些用js渲染的网站,因此urllib2.open_url不起作用.我发现我可以用webbrowser.open_new(url)打开浏览器,但是,我没有找到如何使用webbrowser获取页面的src代码.有什么办法可以用webbrowser来做这个,或者有没有其他解决方案没有webbrowser来处理js网站?
你可以使用带有Webkit引擎的scraper.
其中一个是dryscrape.
例:
import dryscrape
search_term = 'dryscrape'
# set up a web scraping session
sess = dryscrape.Session(base_url = 'http://google.com')
# we don't need images
sess.set_attribute('auto_load_images', False)
# visit homepage and search for a term
sess.visit('/')
q = sess.at_xpath('//*[@name="q"]')
q.set(search_term)
q.form().submit()
# extract all links
for link in sess.xpath('//a[@href]'):
print link['href']
# save a screenshot of the web page
sess.render('google.png')
print "Screenshot written to 'google.png'"
Run Code Online (Sandbox Code Playgroud)
查看更多信息:
https://github.com/niklasb/dryscrape
https://dryscrape.readthedocs.org/en/latest/index.html
| 归档时间: |
|
| 查看次数: |
4015 次 |
| 最近记录: |