cle*_*ent 7 java robots.txt web-applications wildcard
我正在寻找Java中的robots.txt解析器,它支持与Googlebot 相同的模式匹配规则.
我找到了一些解析robots.txt文件的库,但它们都不支持Googlebot样式的模式匹配:
有谁知道一个可以做到这一点的java库?
Nutch 似乎将爬虫共享与一些自定义代码结合使用(请参阅 RobotsRulesParser.java)。不过,我不确定目前的情况。
特别是,问题NUTCH-1455看起来与您的需求非常相关:
如果 http.robots.agents 中配置的用户代理名称包含空格,即使完全包含在 robots.txt http.robots.agents = "Download Ninja,*" 中,它也不匹配
也许值得尝试/修补/提交修复:)
| 归档时间: |
|
| 查看次数: |
1152 次 |
| 最近记录: |