从网页中获取文本和链接

Question

我想要一个脚本来下载带有 curl 的网页，并将其通过管道传输到 w3m，这会将它从除文本和链接之外的所有内容中剥离出来。

是否可以为 w3m 的 -T 选项指定不止一种内容类型以及如何指定？

为了进一步澄清我的问题，这里有一个例子：

curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html

它只返回来自 Ask Ubuntu's questions 页面的文本，但没有链接。如果 w3m 无法做到，是否还有其他工具可以同时抓取文本和链接？

Answer 1

好吧，经过我自己的广泛研究，我想，没有这样的工具......

然而，无论如何，我确实发现了 hxnormalize，它使得编写我需要的特定脚本变得相对简单。

Answer 2

您可以使用lynx -dump。它将包括每个链接前面的数字[16]，然后是文档末尾的 URL 列表。

对于管道使用，您可以使用lynx -dump -force_html -stdin. 但是，这将无法正确处理相对链接，因为它不知道原始 URL。

所以最好的办法就是lynx -dump http://.../不分开curl。