我正在尝试在大修之前镜像一个相当大的网站(20,000 多页)。基本上,在切换到新的之前我需要一个备份,以防我们忘记了我们需要的东西(我们将有大约 1,000 页在发布时)。该站点在 CMS 上运行,我无法轻松从中提取可用数据,因此我尝试使用 wget 制作副本。
我的问题是 wget 似乎并没有真正转换链接,尽管命令中存在 --convert-links 或 -k 。我尝试了几种不同的标志组合,但我一直无法获得所需的输出。最近失败的尝试是:
nohup wget --mirror -k -l10 -PafscSnapshot --html-extension -R *calendar* -o wget.log http://www.example.org &
Run Code Online (Sandbox Code Playgroud)
我还包括了 --backup-converted 和 --convert-links 而不是 -k(这并不重要)。我已经在有和没有 -P 和 -l 的情况下完成了它,同样不,它们应该很重要。
结果仍然有链接的文件,如:
http://www.example.org/ht/d/sp/i/17770
Run Code Online (Sandbox Code Playgroud) 我有一个来自no-ip.org. 我想为我的域获得一个免费的 SSL 证书。这甚至可以用于子域,如果可以,我的选择是什么?
有时一些网站有非常酷的字体,它们甚至可以通过互联网免费获得。
有没有一种简单的方法(也许是一个应用程序)可以用来找出网站使用的字体??
可能重复:
如何下载整个网站
有没有什么软件可以让你一次下载一个网站的所有链接?
例如:我正在使用 w3school.com 站点并希望一次下载所有 PHP 教程。
有人告诉我“tglepote”。bt 我不知道它是什么,Google 一无所获。
我想从hotel.info了解用于开发网页的软件。我该怎么做?是否有任何适用于 Firefox 的工具可以帮助我找到这些信息?
您在 Web 上所做的一切(例如 Web 浏览和阅读电子邮件)都可以使用 Telnet 进行,这是真的吗?
你知道有什么软件可以自动获取网站每个页面的屏幕截图吗?它的行为就像蜘蛛/爬虫/机器人。你说它...
例如:我开发了一个网站,现在我想获取该网站每个页面的屏幕截图。我当然可以手动完成(大量工作)。对于站点的每个模块(学生、付款等),我有不同的页面(创建、编辑、详细信息、删除等)表单。
我正在寻找的是一种软件,它可以访问网站的每个链接,然后捕获屏幕——一种可以自动化整个过程的软件。
如果软件允许用户传递 URL 列表来捕获屏幕截图,从而允许更细粒度的配置,那也会很好。
编辑:
我尝试了 Aaron 在他的回答中提到的 Selenium,但我设法找到了一个完全符合我需要的应用程序。这叫狗仔队!我写了一篇博文来展示我对 Selenium 的尝试以及关于 Paparazzi! 批量捕获功能的发现:
是否有可能在打开网站时只显示文本数据,即没有图像、广告等,从而减少加载网站的时间?有支持这个的浏览器吗?
这是下载包含所有图像和 css 文件的网站的正确方法,使其具有与原始布局相同的布局,但我不知道为什么需要-K --backup-converted和-E --adjust-extension选项。
网站更新后,我如何更新网站的备份/下载副本?和下载一样吗?
wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
Run Code Online (Sandbox Code Playgroud)
–m (--mirror) :打开适合镜像的选项(无限递归下载和时间戳)。
-p (--page-requisites):下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。
-H (--span-hosts): 在进行递归检索时启用跨主机。
–k (--convert-links) : 下载后,将文档中的链接转换为本地查看。
-K (--backup-converted): 转换文件时,使用 .orig 后缀备份原始版本。影响 -N 的行为。
-E (--adjust-extension) : 在文件末尾添加适当的扩展名。
-b (--background): 启动后立即进入后台。如果未通过 -o 指定输出文件,则输出将重定向到 wget-log。
-e (--execute) :执行命令(机器人=关闭)。
-t number (--tries=number):将尝试次数设置为number。
-U (--user-agent): 标识为 HTTP 服务器的代理字符串。如果您发送默认用户代理,某些服务器可能会永久禁止您进行递归下载。
有时我会收到非常可疑的消息,或者我在某个地方看到一个随机链接,我显然没有点击它们,但我仍然很好奇该网站上有什么。因此,这让我想知道查看该网站的最安全方法是什么,同时确保即使它包含病毒我的计算机也不会被感染?如果网站被感染的可能性很高,我个人不太信任防病毒软件。
也许在点击链接之前禁用 javascript?这能解决问题吗?但这很可能会扰乱网页本身。
基本上我的问题是:如何安全地打开我知道是恶意的链接?