Nutch + Solr仅限顶级页面

Question

我一直在尝试使用Nutch在我的urls文件中抓取域的第一页,然后使用Solr使搜索到的爬网数据中的关键字可搜索.到目前为止,我还没有能够以这种方式工作,除非这两个页面链接在一起.

我意识到这可能是没有传入链接的页面的问题,因此PageRank算法丢弃页面内容.我尝试调整参数,以便不在图表中的网址的默认分数更高,但我仍然得到相同的结果.

是否有人知道可以在没有传入链接的页面上构建索引？

谢谢!

Answer 1

尝试使用 nutch 注入命令将“no-incomming-link”URL 插入到 nutch 数据库中。

我猜想，如果您在 solr 索引中没有看到任何内容，那是因为这些 URL 的数据没有存储在 nutch 数据库中（因为 nutch 会注意将其数据库与索引同步）。数据库中没有数据可能是因为 URL 是隔离的，因此您可以尝试注入命令来包含这些站点。

我会尝试实际查看内部数据库来验证 nutch 行为，因为在索引中插入值之前，nutch 将数据存储在其数据库内。

分配更高的分数没有任何效果，因为只要数据在索引中，lucene 就会给你一个结果。