使用 wget 复制具有适当布局的网站以供离线浏览

ajr*_*dev 7 backup website download wget

这是下载包含所有图像和 css 文件的网站的正确方法,使其具有与原始布局相同的布局,但我不知道为什么需要-K --backup-converted-E --adjust-extension选项。

网站更新后,我如何更新网站的备份/下载副本?和下载一样吗?

wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
Run Code Online (Sandbox Code Playgroud)
  • –m (--mirror) :打开适合镜像的选项(无限递归下载和时间戳)。

  • -p (--page-requisites):下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

  • -H (--span-hosts): 在进行递归检索时启用跨主机。

  • –k (--convert-links) : 下载后,将文档中的链接转换为本地查看。

  • -K (--backup-converted): 转换文件时,使用 .orig 后缀备份原始版本。影响 -N 的行为。

  • -E (--adjust-extension) : 在文件末尾添加适当的扩展名。

  • -b (--background): 启动后立即进入后台。如果未通过 -o 指定输出文件,则输出将重定向到 wget-log。

  • -e (--execute) :执行命令(机器人=关闭)。

  • -t number (--tries=number):将尝试次数设置为number

  • -U (--user-agent): 标识为 HTTP 服务器的代理字符串。如果您发送默认用户代理,某些服务器可能会永久禁止您进行递归下载。

小智 5

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org
Run Code Online (Sandbox Code Playgroud)

我过去用过这个

使用以下方法制作站点的离线镜像wget

各种标志的解释:

  • --mirror – 使(除其他外)下载递归。
  • --convert-links – 将所有链接(也包括 CSS 样式表之类的东西)转换为相对链接,因此适合离线查看。
  • --adjust-extension – 根据内容类型为文件名(html 或 css)添加合适的扩展名。
  • --page-requisites – 下载正确脱机显示页面所需的 CSS 样式表和图像等内容。
  • --no-parent– 递归时不要上升到父目录。它可用于将下载限制为仅站点的一部分。