具有通配符支持的Java robots.txt解析器

cle*_*ent 7 java robots.txt web-applications wildcard

我正在寻找Java中的robots.txt解析器,它支持与Googlebot 相同的模式匹配规则.

我找到了一些解析robots.txt文件的库,但它们都不支持Googlebot样式的模式匹配:

有谁知道一个可以做到这一点的java库?

ald*_*eal 1

Nutch 似乎将爬虫共享一些自定义代码结合使用(请参阅 RobotsRulesParser.java)。不过,我不确定目前的情况。

特别是,问题NUTCH-1455看起来与您的需求非常相关:

如果 http.robots.agents 中配置的用户代理名称包含空格,即使完全包含在 robots.txt http.robots.agents = "Download Ninja,*" 中,它也不匹配

也许值得尝试/修补/提交修复:)