如何在没有 Internet Explorer 或 Firefox 打开 Acrobat Reader/Quicktime/MS Word/什么的情况下直接从网络下载内容?
我使用的是 Windows,所以 Windows 版本的Wget就可以了。
我想在 archive.org 获取给定网站的所有文件。原因可能包括:
我怎么做 ?
考虑到 archive.org 回溯机器非常特殊:网页链接不是指向档案本身,而是指向可能不再存在的网页。客户端使用 JavaScript 来更新链接,但是像递归 wget 这样的技巧是行不通的。
我需要通过 HTTP 翻录一个网站。我需要下载图像、HTML、CSS 和 JavaScript,并在文件系统中组织它们。
有谁知道如何做到这一点?
假设我想要一个简单的页面副本下载到我的 HD 中以永久保存。我不是在寻找深度递归获取,只是一个页面,而且还需要下载该页面加载的任何资源。
示例:https : //www.tumblr.com/
预计:
我很想知道您是否可以帮我找到最好的 wget 语法或其他可以做到这一点的工具。我尝试过的工具通常无法通过 CSS 加载图像,因此在本地加载时页面看起来永远不会正确。谢谢!
我找到了一种使用 FireFox 执行此操作的方法。默认保存已损坏,并且有一个名为“保存完成”的插件,显然可以很好地完成此工作。但是,您无法下载它,因为它说当前的 FireFox 版本不支持它。原因是它被卷入了这个插件:“Mozilla Archive Format”。安装它,然后当你使用 File > "Save Page As.." 有一个名为 "Web Page, complete" 的新选项,它本质上是旧的插件,它修复了 FireFox 使用的库存实现(这很糟糕)。这不是 WGET 解决方案,但它确实提供了一个可行的解决方案。
编辑:对于将来可能会关注此问题并尝试执行此操作的任何人来说,另一个荒谬的问题。让插件正常工作你需要工具> Mozilla存档格式并将“对页面进行忠实快照”的(可怕的)默认设置更改为“使用保存完整保存脚本和源”,否则插件将清空所有您的脚本文件并将它们替换为文本“/* Script removed by snapshot save */”。
我正在尝试镜像博客,例如www.example.com,使用wget.
我将 wget 与以下选项一起使用(正确替换了 shell 变量):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Run Code Online (Sandbox Code Playgroud)
该博客包含驻留在其他域中的图像。
即使我已指定-p选项(下载链接页面资产),除非我在-D选项中明确指定每个域,否则不会下载这些图像。
如果我省略该-D选项,则 wget 将跟踪外部的每个链接www.example.com并下载整个互联网。
是否可以wget只关注下面的每个链接www.example.com并下载每个页面所需的资产,无论这些资产是否驻留在同一个域中,而无需我明确指定每个域?
可能重复:
如何下载整个网站
有没有什么软件可以让你一次下载一个网站的所有链接?
例如:我正在使用 w3school.com 站点并希望一次下载所有 PHP 教程。
有人告诉我“tglepote”。bt 我不知道它是什么,Google 一无所获。
有没有办法将网页另存为静态 HTML,可用于离线查看、编辑等?
我想删除所有 JavaScript 文件。只留下 HTML、CSS 和图像。
例如,如果这个网页有一个 Facebook Like 按钮,我希望按钮的图像作为常规图像成为 HTML 的一部分(而不是在我加载页面后运行一些 JavaScript 代码时加载)。
我正在尝试为离线演示准备一个网页。当我使用标准的“另存为 HTML 完整”之类的工具时,所有 JavaScript 也会被保存,当离线查看时,所有动态内容都是空白的。
注意 - 当然,我不希望动态内容在没有 JavaScript 的情况下工作。我只是想让网页看起来就像是从互联网上加载的一样。
我想要一个命令,我输入一个 URL,例如 photos.tumblr.com,它会在一个文件夹中下载此站点上的所有照片,但不仅仅是站点主页的图像。该命令需要从站点的各个部分下载图片,例如photos.tumblr.com/ph1/1.png/photos.tumblr.com/ph3/4.jpg。
请给我看一个使用这个 url 的例子:http : //neverending-fairytale.tumblr.com/并在回答问题之前测试它
我一直在努力挽救这个网页,但到目前为止没有一个有效。该网站本身有一些很棒的功能。它能够实时渲染 MathJax,没有任何明显的延迟。我希望能够离线使用它,所以我想保存它。我还没有很成功。我使用的是 MacOS。这是我到目前为止所尝试过的:
\n\n我只想保存网站并能够离线使用它。然而,我注意到一些有趣的事情。当我在 Safari 中离线时,网页运行良好。这无疑意味着该网页可以毫无问题地离线运行 \xe2\x80\x93 我只需要一种方法来正确保存它。我想我可以创建一个虚拟机,在其上加载网站,然后将其保存为快照,并在我想要离线时使用它,但这对于这样一个看似简单的问题来说似乎是一个不成比例的解决方案。
\n\n附注:是否可以保存这样的网页网页(iPhone 6S 页面),其中包含所有滚动动画、嵌入的图片和视频以及所有其他内容?我只尝试使用 Safari 创建 Web 存档,但它只保存了漂亮的滚动动画 \xe2\x80\x93 而不是嵌入的图片等。
\n如何使用 wget 获取公共网站的图像?这不是一个很大的网站:它有大约 40 页,每页大约有三张图片。
我想避免:
有任何想法吗?
使用wget(httrack或其他程序)复制整个网站和模板时是否可以同时获取 PHP 代码和 SQL 数据库?
我需要什么软件来复制/镜像这样的网站?“Internet 下载管理器”是一个可用于此的程序吗?
我想要一些页面以便能够离线查看我想要一些好的免费软件,可以为我保存网站,允许我离线查看,还可以搜索页面中的文本。
有人可以推荐任何软件吗?
可能重复:
如何下载整个网站?
如果有一个网站www.example.com,不同路径下有很多同名的静态页面。
有没有办法下载所有页面以离线查看?
例如:
www.example.com/a/x.page
www.example.com/b/x,page
www.example.com/b/c/x,page
Run Code Online (Sandbox Code Playgroud)
我想这样做是因为我无法在家中访问互联网,只能在我们公司的办公室访问。