保存网页源的固有方法

Fus*_*rry 15 python web-scraping

我已经阅读了很多关于网络抓取的答案,谈论了BeautifulSoup,Scrapy等来执行网络抓取.

有没有办法相当于从网络浏览器保存页面的来源?

也就是说,Python中有没有一种方法可以将它指向一个网站,然后通过标准的Python模块将页面源保存到文本文件中?

这是我到达的地方:

import urllib

f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")

#somehow save the web page source

f.close()
Run Code Online (Sandbox Code Playgroud)

我不太了解 - 但是寻找代码来实际拉取页面的来源以便我可以编写它.我收集到urlopen只是建立联系.

也许有一个readlines()等效于读取网页的行?

bte*_*tel 30

你可以尝试urllib2:

import urllib2

page = urllib2.urlopen('http://stackoverflow.com')

page_content = page.read()

with open('page_content.html', 'w') as fid:
    fid.write(page_content)
Run Code Online (Sandbox Code Playgroud)

  • 为避免编码问题,请使用`with open('page_content.html','wb')作为fid:` (4认同)