当我nutch 1.10使用以下命令运行时,假设TestCrawl2以前不存在并且需要创建,...
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
Run Code Online (Sandbox Code Playgroud)
我收到索引索引的错误:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
Run Code Online (Sandbox Code Playgroud)
linkdb目录存在,但不包含"当前"目录.该目录由root拥有,因此不应存在权限问题.由于进程退出错误,因此linkdb目录包含.locked和.. locked.crc文件.如果我再次运行该命令,这些锁定文件会导致它在同一个地方退出.删除TestCrawl2目录,冲洗,重复.
请注意,nutch和solr安装本身之前已经运行而没有问题TestCrawl.刚才我正在尝试一个我遇到问题的新手.有关解决此问题的任何建议吗?
好吧,看来我遇到了这个问题的一个版本:
https://issues.apache.org/jira/browse/NUTCH-2041
这是由于爬网脚本不知道对ignore_external_links 我的nutch-site.xml 文件的更改的结果。
我正在尝试抓取多个网站,并希望通过忽略外部链接并单独保留 regex-urlfilter.txt (仅使用 + )来让我的生活变得简单。
现在看来我必须将ignore_external_links 更改回 false 并为每个网址添加正则表达式过滤器。希望我能尽快发布 1.11 版本。看起来这个问题已经解决了。
| 归档时间: |
|
| 查看次数: |
748 次 |
| 最近记录: |