Fus*_*rry 15 python web-scraping
我已经阅读了很多关于网络抓取的答案,谈论了BeautifulSoup,Scrapy等来执行网络抓取.
有没有办法相当于从网络浏览器保存页面的来源?
也就是说,Python中有没有一种方法可以将它指向一个网站,然后通过标准的Python模块将页面源保存到文本文件中?
这是我到达的地方:
import urllib
f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")
#somehow save the web page source
f.close()
Run Code Online (Sandbox Code Playgroud)
我不太了解 - 但是寻找代码来实际拉取页面的来源以便我可以编写它.我收集到urlopen只是建立联系.
也许有一个readlines()等效于读取网页的行?
bte*_*tel 30
你可以尝试urllib2:
import urllib2
page = urllib2.urlopen('http://stackoverflow.com')
page_content = page.read()
with open('page_content.html', 'w') as fid:
fid.write(page_content)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
16544 次 |
| 最近记录: |