hay*_*res 5 solr design-patterns nutch
我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。
这些菜单中的每一个都在 DIV<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>和其他几个 DIV 中明确定义。
我需要在某个时候删除这些 DIVS 中的内容。
我猜测正确的位置是在 solr 索引期间,但无法弄清楚如何进行。
模式看起来像这样(<div id="calendar">).*?(<\/div>),但我无法让它工作<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />,而且我不太确定将它放在 schema.xml 中的哪里。
当我将该模式放入 schema.xml 时,不会解析。
这是 SOLR 的补丁,您可以将其放置在索引配置中以忽略您配置的标签内容。不过,它只适用于 XML,所以如果您可以整理 HTML 或者您知道它是 XHTML,那么这可以工作,但它不适用于任何随机 HTML。