nutch 1.10输入路径不存在/ linkdb/current

Ano*_*Man 6 solr hadoop nutch

当我nutch 1.10使用以下命令运行时,假设TestCrawl2以前不存在并且需要创建,...

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
Run Code Online (Sandbox Code Playgroud)

我收到索引索引的错误:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
Run Code Online (Sandbox Code Playgroud)

linkdb目录存在,但不包含"当前"目录.该目录由root拥有,因此不应存在权限问题.由于进程退出错误,因此linkdb目录包含.locked和.. locked.crc文件.如果我再次运行该命令,这些锁定文件会导致它在同一个地方退出.删除TestCrawl2目录,冲洗,重复.

请注意,nutch和solr安装本身之前已经运行而没有问题TestCrawl.刚才我正在尝试一个我遇到问题的新手.有关解决此问题的任何建议吗?

Ano*_*Man 3

好吧,看来我遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬网脚本不知道对ignore_external_links 我的nutch-site.xml 文件的更改的结果。

我正在尝试抓取多个网站,并希望通过忽略外部链接并单独保留 regex-urlfilter.txt (仅使用 + )来让我的生活变得简单。

现在看来我必须将ignore_external_links 更改回 false 并为每个网址添加正则表达式过滤器。希望我能尽快发布 1.11 版本。看起来这个问题已经解决了。