我想测试我的网站在被抓取时的行为方式。但是,我想排除所有包含“页面”一词的 URL。我试过:
$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/
Run Code Online (Sandbox Code Playgroud)
该-R
标志应该拒绝包含“页面”一词的 URL 模式。除了它似乎不起作用:
Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK
Run Code Online (Sandbox Code Playgroud)
如何排除此类 URL 的爬行?
Que*_*low 12
经过一些试验和错误,我意识到解决方案只是--reject-regex
像这样使用:
wget -r --reject-regex page --spider --no-check-certificate -w 1 http://mysite.com/
Run Code Online (Sandbox Code Playgroud)
urlregex 不能包含通配符,因此*page*
是无效的,但是page
是。