Dr.*_*eon 6 website download wget macos
好的,这是我需要的:
.html所有文件的扩展名都很棒,这样浏览器就可以轻松识别和打开它们这就是我正在使用的:
wget --recursive --no-clobber --page-requisites --convert-links --html-extension --domains wikispaces.com http://chessprogramming.wikispaces.com/
Run Code Online (Sandbox Code Playgroud)
事情是 :
.css文件和图像等似乎没有被下载 - 至少,达到我运行的级别(好吧,如果过程完成,也许它们会被下载,所以我们可以跳过这个)所以……有什么想法吗?
小智 3
首先,这似乎是 OS X 独有的问题。我可以在 Ubuntu 14.04 LTS 上使用上述命令,并且它开箱即用!一些建议:
\n\n\n\n
.css文件和图像等似乎至少没有下载\xe2\x80\x93,直到我离开运行的级别(好吧,如果该过程完成,也许它们会被下载,所以我们可以跳过这一点)
当您选择 时--domains wikispaces.com,您将不会下载位于其他域的链接 CSS 文件。该网站上的一些样式表位于http://c1.wikicdn.com的来源所示index.html。
某些网站不允许您直接使用其链接访问其链接文件(引用的图像)(请参阅此页面)。您只能通过网站查看它们。但这里的情况似乎并非如此。
\nWget 在解析 HTML 时似乎无法识别注释。当 Wget 运行时,我看到以下内容:
\n\n--2016-07-01 04:01:12--  http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg\nReusing existing connection to chessprogramming.wikispaces.com:80.\nHTTP request sent, awaiting response... 404 Not Found\n2016-07-01 04:01:14 ERROR 404: Not Found.\nRun Code Online (Sandbox Code Playgroud)\n在浏览器中打开链接会将您带到登录页面。该文件的名称表明它出现在注释中的某个位置。
\n许多站点不允许使用下载管理器下载,因此它们会检查哪个客户端发起了 HTTP 请求(包括浏览器或您用于从其服务器请求文件的任何客户端)。
\n用于-U somebrowser伪造客户端并伪装成浏览器。\xc2\xa0\n例如,-U mozilla可以添加\n以告诉服务器 Mozilla/Firefox 正在请求该页面。\xc2\xa0\n但这不是问题在这里\n因为我可以在没有这个参数的情况下下载该网站。
下载和请求率很重要。服务器不希望其性能因机器人从其站点请求数据而变得臃肿。在 Wget 中使用--limit-rate=和--wait=参数来限制下载速率,并在为各个文件生成 get 请求之间等待几秒钟。
例如
\n--2016-07-01 04:01:12--  http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg\nReusing existing connection to chessprogramming.wikispaces.com:80.\nHTTP request sent, awaiting response... 404 Not Found\n2016-07-01 04:01:14 ERROR 404: Not Found.\nRun Code Online (Sandbox Code Playgroud)\n在 get 请求之间等待 5 秒并将下载速率限制为 100Kbps。再说一次,这不是这里的问题,因为服务器不需要我限制下载速率来获取网站。
\n这里最可能的情况是(1)。替换为--domains wikispaces.com并重--domains *试。让我们看看结果如何。您至少应该能够获取 CSS 文件。
\n\n没有添加 html 扩展名
\n
当我运行命令时,正在添加 HTML 扩展。
\n\n\n链接未转换
\n
我不认为我在这里完全正确,但不要指望当您镜像站点时链接可以开箱即用。
\n当您将参数传递给 HTTP get 请求时(例如http://chessprogramming.wikispaces.com/wiki/xmla?v=rss_2_0具有参数v=rss_2_0),该请求将由服务器上运行的某些脚本处理,例如 PHP。这些参数将帮助您根据参数获取正确的脚本版本。请记住,当您镜像站点(特别是在 PHP 上运行的 Wiki)时,除非获取原始 PHP 脚本,否则无法准确镜像站点。PHP 脚本返回的 HTML 页面只是您可以通过该脚本看到的页面的一方面。生成页面的正确算法存储在服务器上,并且只有在获取原始 PHP 文件时才会正确镜像,而使用 HTTP 则无法做到这一点。为此,您需要通过 FTP 访问服务器。
希望这可以帮助。
\n|   归档时间:  |  
           
  |  
        
|   查看次数:  |  
           2058 次  |  
        
|   最近记录:  |