如何使用python获取webbrowser的源代码

Question

如何使用python获取webbrowser的源代码

我正在用scrapy写一个蜘蛛,但是,我遇到了一些用js渲染的网站,因此urllib2.open_url不起作用.我发现我可以用webbrowser.open_new(url)打开浏览器,但是,我没有找到如何使用webbrowser获取页面的src代码.有什么办法可以用webbrowser来做这个,或者有没有其他解决方案没有webbrowser来处理js网站？

Answer 1

Sha*_*lan 5

你可以使用带有Webkit引擎的scraper.

其中一个是dryscrape.

例:

import dryscrape

search_term = 'dryscrape'

# set up a web scraping session
sess = dryscrape.Session(base_url = 'http://google.com')

# we don't need images
sess.set_attribute('auto_load_images', False)

# visit homepage and search for a term
sess.visit('/')
q = sess.at_xpath('//*[@name="q"]')
q.set(search_term)
q.form().submit()

# extract all links
for link in sess.xpath('//a[@href]'):
  print link['href']

# save a screenshot of the web page
sess.render('google.png')
print "Screenshot written to 'google.png'"

Run Code Online (Sandbox Code Playgroud)

查看更多信息:

https://github.com/niklasb/dryscrape
https://dryscrape.readthedocs.org/en/latest/index.html

归档时间：	13 年前
查看次数：	4015 次
最近记录：	11 年，7 月前