如何存档整个网站以供离线观看?

jsk*_*kle 53 html web-crawler archive

实际上,我们已经多次为客户刻录了asp.net网站的静态/存档副本.到目前为止我们已经使用过WebZip,但是我们遇到了崩溃的问题,下载的页面没有正确重新链接等等.

我们基本上需要一个应用程序来抓取并下载我们的asp.net网站上的所有内容的静态副本(页面,图像,文档,CSS等),然后处理下载的页面,以便在没有互联网连接的情况下在本地浏览它们(摆脱它们)链接中的绝对URL等).越白痴证明越好.这似乎是一个非常普遍和(相对)简单的过程,但我尝试了一些其他的应用程序,并且真的不为所动

有没有人有他们推荐的档案软件?有人有一个他们会分享的非常简单的过程吗?

chu*_*ckg 65

你可以使用wget:

wget -m -k -K -E http://url/of/web/site
Run Code Online (Sandbox Code Playgroud)

  • 更长但不那么神秘的版本:`wget --mirror --convert-links --backup-converted --adjust-extension http:// url/of/web/site` (15认同)
  • 对我来说,这只是获得index.html (3认同)
  • 从--help,我可以看到其他人做了什么,但是标志K(大写)和E做了什么? (2认同)
  • 不要忘记-p开关来获取图像和其他嵌入对象.(-E用于转换为html扩展名.-K用于备份扩展名为.orig的原始文件) (2认同)

Jes*_*ing 38

在Windows中,您可以查看HTTrack.它非常易于配置,允许您设置下载速度.但是您可以将它指向一个网站并运行它,而根本没有任何配置.

根据我的经验,这是一个非常好的工具,效果很好.我喜欢HTTrack的一些东西是:

  • 开源许可证
  • 恢复停止下载
  • 可以更新现有存档
  • 您可以将其配置为在下载时非侵略性,因此不会浪费您的带宽和站点带宽.

  • 它也适用于Mac - "brew install httrack" (3认同)
  • httrack也适用于Linux。 (2认同)

jth*_*ter 6

Wayback机器下载hartator是简单,快捷.

通过Ruby安装,然后使用Internet Archive中的所需域和可选时间戳运行.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
Run Code Online (Sandbox Code Playgroud)