提取网站网址

Question

在 Ubuntu 中有没有办法找到网站中的所有目录？

我有一个网站，我想查看该网站的内部链接（目录）。

像这样的东西：

...

这个网站的问题是当我输入像 ubuntu.com/cloud 这样的东西时，它没有显示子目录。

Answer 1

打开终端并输入：

sudo apt install lynx  
lynx -dump -listonly -nonumbers "https://www.ubuntu.com/" | uniq -u

此命令通过将输出重定向到名为 links.txt 的文本文件来改进上一个命令。

lynx -dump "https://www.ubuntu.com/" | awk '/http/{print $2}' | uniq -u > links.txt

Answer 2

从 superuser.com看到这个答案：

wget --spider -r --no-parent http://some.served.dir.ca/
ls -l some.served.dir.ca

有免费的网站可以为您执行此操作并将输出转换为 xml 格式。我建议您也研究其中一种方法，看看哪种方法更适合您的需求。

编辑OP 包含了一个新的屏幕图