如何使用nutch和索引特定标签解析html到solr?

Ami*_*mir 5 solr nutch apache-tika

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:

<div id=something>
      me specific tag
</div>
Run Code Online (Sandbox Code Playgroud)

实际上,我想在此页面中向 solr(某物)添加一个具有“我的特定标签”值的字段。

任何的想法?

Jay*_*dra 0

您可能需要检查Nutch Plugin,它应该允许您从网页中提取元素。