我正在寻找伪蜘蛛网站的方法.关键是我实际上并不想要内容,而是一个简单的URI列表.我可以使用该选项与Wget合理地接近这个想法--spider,但是当通过a输出输出时grep,我似乎无法找到合适的魔法来使其工作:
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
Run Code Online (Sandbox Code Playgroud)
该grep过滤器似乎完全没有对影响wget输出.我有什么不对或者是否有其他工具我应该尝试更适合提供这种有限的结果集?
UPDATE
所以我发现离线时默认情况下会wget写入stderr.我在手册页中错过了(事实上,如果它在那里我仍然没有找到它).一旦我把回归到stdout,我就更接近我需要的东西了:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Run Code Online (Sandbox Code Playgroud)
如果有的话,我仍然会对其他/更好的手段感兴趣.