保存网页源的固有方法

Question

保存网页源的固有方法

我已经阅读了很多关于网络抓取的答案,谈论了BeautifulSoup,Scrapy等来执行网络抓取.

有没有办法相当于从网络浏览器保存页面的来源？

也就是说,Python中有没有一种方法可以将它指向一个网站,然后通过标准的Python模块将页面源保存到文本文件中？

这是我到达的地方:

import urllib

f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")

#somehow save the web page source

f.close()

Run Code Online (Sandbox Code Playgroud)

我不太了解 - 但是寻找代码来实际拉取页面的来源以便我可以编写它.我收集到urlopen只是建立联系.

也许有一个readlines()等效于读取网页的行？

Answer 1

bte*_*tel 30

你可以尝试urllib2:

import urllib2

page = urllib2.urlopen('http://stackoverflow.com')

page_content = page.read()

with open('page_content.html', 'w') as fid:
    fid.write(page_content)

Run Code Online (Sandbox Code Playgroud)

为避免编码问题,请使用`with open('page_content.html','wb')作为fid:` (4认同)

归档时间：	13 年前
查看次数：	16544 次
最近记录：	6 年，11 月前