首先来看看本教程.
使用solr,您将需要一个xml(或csv)文档,该文档将被推送到solr(进程称为更新;索引是使字段可用于搜索的过程).......的格式是...... 喜欢:
<add>
  <doc>
    <field name="id">9885A004</field>
    <field name="name">Canon PowerShot SD500</field>
    <field name="category">camera</field>
    <field name="features">3x optical zoom</field>
    <field name="features">aluminum case</field>
    <field name="weight">6.4</field>
    <field name="price">329.95</field>
  </doc>
</add>
Run Code Online (Sandbox Code Playgroud)
看这里了解更多详情.
但在您的情况下,您可以使用爬虫(适用于不同或外部来源)来识别不同的文档格式.试着了解Nutch是否可以在这里提供帮助.
例如,看看这个演示文稿,了解solr,lucene和nutch的解释.
|   归档时间:  |  
           
  |  
        
|   查看次数:  |  
           5824 次  |  
        
|   最近记录:  |