使用 Wget 创建网站的完整本地副本

Question

使用 Wget 创建网站的完整本地副本

好的，这是我需要的：

我使用的是 Mac (Mac OS X 10.6.8)
我想在我的硬盘上完全镜像一个网站（这是我用来测试的）
我想要所有图像和先决条件，以便在离线时可以浏览网站
我希望所有页面中的相关链接都相应地更新
（* 可选）.html所有文件的扩展名都很棒，这样浏览器就可以轻松识别和打开它们

这就是我正在使用的：

wget --recursive --no-clobber --page-requisites --convert-links --html-extension --domains wikispaces.com http://chessprogramming.wikispaces.com/

Run Code Online (Sandbox Code Playgroud)

事情是：

.css文件和图像等似乎没有被下载 - 至少，达到我运行的级别（好吧，如果过程完成，也许它们会被下载，所以我们可以跳过这个）
没有添加 html 扩展
链接未转换

所以……有什么想法吗？

Answer 1

小智 3

首先，这似乎是 OS X 独有的问题。我可以在 Ubuntu 14.04 LTS 上使用上述命令，并且它开箱即用！一些建议：

\n

\n
.css文件和图像等似乎至少没有下载\xe2\x80\x93，直到我离开运行的级别（好吧，如果该过程完成，也许它们会被下载，所以我们可以跳过这一点）
\n

\n

当您选择时--domains wikispaces.com，您将不会下载位于其他域的链接 CSS 文件。该网站上的一些样式表位于http://c1.wikicdn.com的来源所示index.html。
\n
某些网站不允许您直接使用其链接访问其链接文件（引用的图像）（请参阅此页面）。您只能通过网站查看它们。但这里的情况似乎并非如此。
\n

Wget 在解析 HTML 时似乎无法识别注释。当 Wget 运行时，我看到以下内容：

\n\n

--2016-07-01 04:01:12--  http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg\nReusing existing connection to chessprogramming.wikispaces.com:80.\nHTTP request sent, awaiting response... 404 Not Found\n2016-07-01 04:01:14 ERROR 404: Not Found.\n

Run Code Online (Sandbox Code Playgroud)\n

在浏览器中打开链接会将您带到登录页面。该文件的名称表明它出现在注释中的某个位置。

\n

许多站点不允许使用下载管理器下载，因此它们会检查哪个客户端发起了 HTTP 请求（包括浏览器或您用于从其服务器请求文件的任何客户端）。
\n
用于-U somebrowser伪造客户端并伪装成浏览器。\xc2\xa0\n例如，-U mozilla可以添加\n以告诉服务器 Mozilla/Firefox 正在请求该页面。\xc2\xa0\n但这不是问题在这里\n因为我可以在没有这个参数的情况下下载该网站。
\n
下载和请求率很重要。服务器不希望其性能因机器人从其站点请求数据而变得臃肿。在 Wget 中使用--limit-rate=和--wait=参数来限制下载速率，并在为各个文件生成 get 请求之间等待几秒钟。
\n
例如
\n
```
--2016-07-01 04:01:12--  http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg\nReusing existing connection to chessprogramming.wikispaces.com:80.\nHTTP request sent, awaiting response... 404 Not Found\n2016-07-01 04:01:14 ERROR 404: Not Found.\n
```
Run Code Online (Sandbox Code Playgroud)\n
在 get 请求之间等待 5 秒并将下载速率限制为 100Kbps。再说一次，这不是这里的问题，因为服务器不需要我限制下载速率来获取网站。
\n

\n

这里最可能的情况是（1）。替换为--domains wikispaces.com并重--domains *试。让我们看看结果如何。您至少应该能够获取 CSS 文件。

\n

\n
没有添加 html 扩展名
\n

\n

当我运行命令时，正在添加 HTML 扩展。

\n

\n
链接未转换
\n

\n

我不认为我在这里完全正确，但不要指望当您镜像站点时链接可以开箱即用。

\n

当您将参数传递给 HTTP get 请求时（例如http://chessprogramming.wikispaces.com/wiki/xmla?v=rss_2_0具有参数v=rss_2_0），该请求将由服务器上运行的某些脚本处理，例如 PHP。这些参数将帮助您根据参数获取正确的脚本版本。请记住，当您镜像站点（特别是在 PHP 上运行的 Wiki）时，除非获取原始 PHP 脚本，否则无法准确镜像站点。PHP 脚本返回的 HTML 页面只是您可以通过该脚本看到的页面的一方面。生成页面的正确算法存储在服务器上，并且只有在获取原始 PHP 文件时才会正确镜像，而使用 HTTP 则无法做到这一点。为此，您需要通过 FTP 访问服务器。

\n

希望这可以帮助。

\n

归档时间：	12 年，9 月前
查看次数：	2058 次
最近记录：	9 年，3 月前