小编hay*_*res的帖子

在爬行或使用 nutch 和 solr 建立索引期间从 html 中删除菜单

我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。

这些菜单中的每一个都在 DIV<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>和其他几个 DIV 中明确定义。

我需要在某个时候删除这些 DIVS 中的内容。

我猜测正确的位置是在 solr 索引期间,但无法弄清楚如何进行。

模式看起来像这样(<div id="calendar">).*?(<\/div>),但我无法让它工作<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />,而且我不太确定将它放在 schema.xml 中的哪里。

当我将该模式放入 schema.xml 时,不会解析。

solr design-patterns nutch

5
推荐指数
1
解决办法
3440
查看次数

标签 统计

design-patterns ×1

nutch ×1

solr ×1