Ami*_*mir 5 solr nutch apache-tika
我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:
<div id=something>
      me specific tag
</div>
Run Code Online (Sandbox Code Playgroud)
实际上,我想在此页面中向 solr(某物)添加一个具有“我的特定标签”值的字段。
任何的想法?
|   归档时间:  |  
           
  |  
        
|   查看次数:  |  
           9448 次  |  
        
|   最近记录:  |