相当于Python中的wget下载网站和资源

Con*_*rad 6 python wget web-crawler

2.5年前在下载一个网页及其所有资源文件的问题上也发生了同样的事情,但没有得到答案,"请看相关主题"并不是真的在问同样的事情.

我想下载页面上的所有内容,以便只从文件中查看它.

命令

wget --page-requisites --domains = DOMAIN --no-parent --html-extension --convert-links --restrict-file-names = windows

完全是我需要的.但是我们希望能够将其与其他必须可移植的东西联系起来,因此需要它在Python中.

我一直在看美丽的汤,scrapy,各种蜘蛛贴在这个地方,但这些都似乎处理以巧妙但具体的方式获取数据/链接.使用这些来做我想要的事情似乎需要大量工作来处理找到所有资源,当我确定必须有一个简单的方法.

非常感谢

iro*_*hon 3

您应该使用适合手头工作的工具。

如果您想抓取网站并将页面保存到磁盘,Python 可能不是最佳选择。当有人需要某个功能时,开源项目就会获得该功能,并且由于wget它的工作做得很好,所以没有人费心尝试编写一个 python 库来取代它。

考虑到 wget 几乎可以在任何具有 Python 解释器的平台上运行,是否有理由不能使用 wget?