索引文档

Joe*_*dev 0 html java lucene indexing

如果我想在 java 中索引一个文档 (HTML) 并计算索引的数量,Lucene 是要走的路吗?我有一种感觉,Lucene 只是一个搜索引擎。

真的非常感谢

Ami*_*far 5

是的!我已经完成了这件事。我使用JSOUP和 Lucene 来获取 HTML 页面以索引内容。JSOUP是一个类似于 jQuery 的库,除了 java。所以我能够得到div我想要索引并获得所有文本。如果你愿意,我可以分享例子。您有什么疑问,也许我可以帮助您?

编辑:这是我之前做过的一个项目的例子https://github.com/amir20/iAuthor/blob/master/wikitool/src/main/java/edu/gwu/raminfar/iauthor/wikitool/WikiTool。爪哇#L180

如果您想要一个真正的索引服务,它会非常有效。如果您只想将 HTML 存储在数据库中,那么 Lucene 可能不是您的选择。

  • 很酷,这正是我使用它的目的。看看我的编辑。我发布了一个指向我的项目的链接。我使用 jsoup 来获取网页的所有文本。我实际上是在解析 wiki 页面的内容,然后将内容编入索引以供稍后搜索。您可以忽略 NlpService 类。那只是解析名词和动词,所以我可以有更好的准确性。这有帮助吗? (2认同)
  • 我使用 Jsoup 拉取所有文本,然后使用 lucene 对文本进行索引。这使我能够搜索包含某些关键字的所有文档。如果您不需要索引服务,则不要使用 lucene。您可以使用常规数据库,应该没问题。我仍然对您想对页面做什么感到困惑。以后需要搜索吗?如果您不需要存储它,那么您要做什么? (2认同)
  • 我认为是这样,那么 lucene 将适合您。你真的和我做的一样。获取所有 HTML,使用 jsoup 对其进行解析,使用 lucene 对其进行索引并将其存储在某处。然后使用 lucene 阅读它并搜索您想要搜索的内容。您还必须将 url 存储在 lucene 中,以便您稍后知道它的来源。您不必存储内容,只需设置 index=true 和 store=false。 (2认同)