我想要一个脚本来下载带有 curl 的网页,并将其通过管道传输到 w3m,这会将它从除文本和链接之外的所有内容中剥离出来。
是否可以为 w3m 的 -T 选项指定不止一种内容类型以及如何指定?
为了进一步澄清我的问题,这里有一个例子:
curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html
它只返回来自 Ask Ubuntu's questions 页面的文本,但没有链接。如果 w3m 无法做到,是否还有其他工具可以同时抓取文本和链接?
您可以使用lynx -dump
。它将包括每个链接前面的数字[16]
,然后是文档末尾的 URL 列表。
对于管道使用,您可以使用lynx -dump -force_html -stdin
. 但是,这将无法正确处理相对链接,因为它不知道原始 URL。
所以最好的办法就是lynx -dump http://.../
不分开curl
。