我正在尝试从 aligajani.com 下载所有链接。其中有 7 个,不包括域 facebook.com——我想忽略它。我不想从以 facebook.com 域开头的链接下载。
另外,我希望它们逐行保存在 .txt 文件中。所以会有7行。
这是我迄今为止尝试过的。这只是下载所有内容。不想要那个。
wget -r -l 1 http://aligajani.com
Run Code Online (Sandbox Code Playgroud)
mic*_*has 23
wget
不提供这样的选择。请阅读其手册页。
您可以lynx
为此使用:
lynx -dump -listonly http://aligajani.com | grep -v facebook.com > file.txt
Run Code Online (Sandbox Code Playgroud)
从它的手册页:
-listonly
for -dump, show only the list of links.
Run Code Online (Sandbox Code Playgroud)
小智 11
在终端中使用以下内容:
wget -r -p -k http://website
Run Code Online (Sandbox Code Playgroud)
或者
wget -r -p -k --wait=#SECONDS http://website
Run Code Online (Sandbox Code Playgroud)
注意:第二个是针对下载速度过快可能会标记您的网站;也可能会导致服务中断,因此在大多数情况下使用第二个是有礼貌的。一切都将放置在您的根文件夹目录或您在执行命令时拥有终端的任何目录中与网站名称相同的文件夹中。