如何使用 wget 从我的站点下载所有链接并保存到文本文件？

Question

我正在尝试从 aligajani.com 下载所有链接。其中有 7 个，不包括域 facebook.com——我想忽略它。我不想从以 facebook.com 域开头的链接下载。

另外，我希望它们逐行保存在 .txt 文件中。所以会有7行。

这是我迄今为止尝试过的。这只是下载所有内容。不想要那个。

wget -r -l 1 http://aligajani.com

Answer 1

wget不提供这样的选择。请阅读其手册页。

您可以lynx为此使用：

lynx -dump -listonly http://aligajani.com | grep -v facebook.com > file.txt

从它的手册页：

   -listonly
          for -dump, show only the list of links.

Answer 2

在终端中使用以下内容：

      wget -r -p -k http://website

或者

      wget -r -p -k --wait=#SECONDS http://website

注意：第二个是针对下载速度过快可能会标记您的网站；也可能会导致服务中断，因此在大多数情况下使用第二个是有礼貌的。一切都将放置在您的根文件夹目录或您在执行命令时拥有终端的任何目录中与网站名称相同的文件夹中。