错误 Nutch “http.agent.name”中未列出任何代理

HMS*_*HMS 5 apache web-crawler nutch

我使用的是 nutch2.2.1。日志文件正在生成以下错误

错误 protocol.RobotRulesParser - 我们广告的代理 (nutch-spider-2.2.1) 未在“http.robots.agents”属性中首先列出!

我的 nutch-site.xml 是(对于上述属性)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>
Run Code Online (Sandbox Code Playgroud)

我的 nutch-default.xml 是

<property>
<name>http.agent.name</name>
<value></value>
</property>
Run Code Online (Sandbox Code Playgroud)

实际问题出在哪里?请清楚地指导(正确解释)。这个问题发布在这里,但我必须奖励这个问题(如果需要),这就是为什么再次发布它。

小智 5

您应该添加“http.robots.agents”属性,并将http.agent.name的值作为第一个代理名称,并在列表末尾保留默认的*。就像:

<property>
     <name>http.robots.agents</name>
     <value>nutch-spider-2.2.1,*</value>
</property>
Run Code Online (Sandbox Code Playgroud)