告诉 wget 不要蜘蛛 URL 匹配模式？

Question

告诉 wget 不要蜘蛛 URL 匹配模式？

我想测试我的网站在被抓取时的行为方式。但是，我想排除所有包含“页面”一词的 URL。我试过：

$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/

Run Code Online (Sandbox Code Playgroud)

该-R标志应该拒绝包含“页面”一词的 URL 模式。除了它似乎不起作用：

Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56--  http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK

Run Code Online (Sandbox Code Playgroud)

如何排除此类 URL 的爬行？

Answer 1

Que*_*low 12

经过一些试验和错误，我意识到解决方案只是--reject-regex像这样使用：

wget -r --reject-regex page --spider --no-check-certificate -w 1 http://mysite.com/

Run Code Online (Sandbox Code Playgroud)

urlregex 不能包含通配符，因此*page*是无效的，但是page是。

归档时间：	11 年，5 月前
查看次数：	10001 次
最近记录：	11 年，5 月前