标签: website

wget 不转换链接

我正在尝试在大修之前镜像一个相当大的网站(20,000 多页)。基本上,在切换到新的之前我需要一个备份,以防我们忘记了我们需要的东西(我们将有大约 1,000 页在发布时)。该站点在 CMS 上运行,我无法轻松从中提取可用数据,因此我尝试使用 wget 制作副本。

我的问题是 wget 似乎并没有真正转换链接,尽管命令中存在 --convert-links 或 -k 。我尝试了几种不同的标志组合,但我一直无法获得所需的输出。最近失败的尝试是:

nohup wget --mirror -k -l10 -PafscSnapshot --html-extension -R *calendar* -o wget.log http://www.example.org &
Run Code Online (Sandbox Code Playgroud)

我还包括了 --backup-converted 和 --convert-links 而不是 -k(这并不重要)。我已经在有和没有 -P 和 -l 的情况下完成了它,同样不,它们应该很重要。

结果仍然有链接的文件,如:

http://www.example.org/ht/d/sp/i/17770
Run Code Online (Sandbox Code Playgroud)

website wget mirroring

8
推荐指数
2
解决办法
1万
查看次数

获取子域的免费 SSL 证书

我有一个来自no-ip.org. 我想为我的域获得一个免费的 SSL 证书。这甚至可以用于子域,如果可以,我的选择是什么?

domain website ssl subdomain

8
推荐指数
1
解决办法
2万
查看次数

如何从网站捕获字体?

有时一些网站有非常酷的字体,它们甚至可以通过互联网免费获得。

有没有一种简单的方法(也许是一个应用程序)可以用来找出网站使用的字体??

internet fonts website

7
推荐指数
1
解决办法
6742
查看次数

一次从网站下载所有链接

可能重复:
如何下载整个网站

有没有什么软件可以让你一次下载一个网站的所有链接?

例如:我正在使用 w3school.com 站点并希望一次下载所有 PHP 教程。

有人告诉我“tglepote”。bt 我不知道它是什么,Google 一无所获。

website download

7
推荐指数
2
解决办法
4万
查看次数

如何找出网页是用哪个软件编写的?

我想从hotel.info了解用于开发网页的软件。我该怎么做?是否有任何适用于 Firefox 的工具可以帮助我找到这些信息?

firefox website web-development

7
推荐指数
3
解决办法
5万
查看次数

一切都可以在 Telnet 中完成吗?

您在 Web 上所做的一切(例如 Web 浏览和阅读电子邮件)都可以使用 Telnet 进行,这是真的吗?

networking telnet internet email website

7
推荐指数
2
解决办法
3283
查看次数

自动捕获网站截图的软件

你知道有什么软件可以自动获取网站每个页面的屏幕截图吗?它的行为就像蜘蛛/爬虫/机器人。你说它...

例如:我开发了一个网站,现在我想获取该网站每个页面的屏幕截图。我当然可以手动完成(大量工作)。对于站点的每个模块(学生、付款等),我有不同的页面(创建、编辑、详细信息、删除等)表单。

我正在寻找的是一种软件,它可以访问网站的每个链接,然后捕获屏幕——一种可以自动化整个过程的软件。

如果软件允许用户传递 URL 列表来捕获屏幕截图,从而允许更细粒度的配置,那也会很好。

编辑:

我尝试了 Aaron 在他的回答中提到的 Selenium,但我设法找到了一个完全符合我需要的应用程序。这叫狗仔队!我写了一篇博文来展示我对 Selenium 的尝试以及关于 Paparazzi! 批量捕获功能的发现:

自动捕获网站截图的软件

screenshot screen-capture website automation

7
推荐指数
1
解决办法
5564
查看次数

如何仅查看网站上的文本

是否有可能在打开网站时只显示文本数据,即没有图像、广告等,从而减少加载网站的时间?有支持这个的浏览器吗?

browser bandwidth website browser-addons

7
推荐指数
2
解决办法
7万
查看次数

使用 wget 复制具有适当布局的网站以供离线浏览

这是下载包含所有图像和 css 文件的网站的正确方法,使其具有与原始布局相同的布局,但我不知道为什么需要-K --backup-converted-E --adjust-extension选项。

网站更新后,我如何更新网站的备份/下载副本?和下载一样吗?

wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
Run Code Online (Sandbox Code Playgroud)
  • –m (--mirror) :打开适合镜像的选项(无限递归下载和时间戳)。

  • -p (--page-requisites):下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

  • -H (--span-hosts): 在进行递归检索时启用跨主机。

  • –k (--convert-links) : 下载后,将文档中的链接转换为本地查看。

  • -K (--backup-converted): 转换文件时,使用 .orig 后缀备份原始版本。影响 -N 的行为。

  • -E (--adjust-extension) : 在文件末尾添加适当的扩展名。

  • -b (--background): 启动后立即进入后台。如果未通过 -o 指定输出文件,则输出将重定向到 wget-log。

  • -e (--execute) :执行命令(机器人=关闭)。

  • -t number (--tries=number):将尝试次数设置为number

  • -U (--user-agent): 标识为 HTTP 服务器的代理字符串。如果您发送默认用户代理,某些服务器可能会永久禁止您进行递归下载。

backup website download wget

7
推荐指数
1
解决办法
4949
查看次数

打开可疑链接最安全的方法是什么?

有时我会收到非常可疑的消息,或者我在某个地方看到一个随机链接,我显然没有点击它们,但我仍然很好奇该网站上有什么。因此,这让我想知道查看该网站的最安全方法是什么,同时确保即使它包含病毒我的计算机也不会被感染?如果网站被感染的可能性很高,我个人不太信任防病毒软件。

也许在点击链接之前禁用 javascript?这能解决问题吗?但这很可能会扰乱网页本身。

基本上我的问题是:如何安全地打开我知道是恶意的链接?

virus website malware links

7
推荐指数
2
解决办法
6万
查看次数