告诉 wget 不要蜘蛛 URL 匹配模式?

Que*_*low 10 url wget

我想测试我的网站在被抓取时的行为方式。但是,我想排除所有包含“页面”一词的 URL。我试过:

$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/
Run Code Online (Sandbox Code Playgroud)

-R标志应该拒绝包含“页面”一词的 URL 模式。除了它似乎不起作用:

Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56--  http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK
Run Code Online (Sandbox Code Playgroud)

如何排除此类 URL 的爬行?

Que*_*low 12

经过一些试验和错误,我意识到解决方案只是--reject-regex像这样使用:

wget -r --reject-regex page --spider --no-check-certificate -w 1 http://mysite.com/
Run Code Online (Sandbox Code Playgroud)

urlregex 不能包含通配符,因此*page*是无效的,但是page是。