索引文档

Question

如果我想在 java 中索引一个文档 (HTML) 并计算索引的数量，Lucene 是要走的路吗？我有一种感觉，Lucene 只是一个搜索引擎。

真的非常感谢

Answer 1

是的！我已经完成了这件事。我使用JSOUP和 Lucene 来获取 HTML 页面以索引内容。JSOUP是一个类似于 jQuery 的库，除了 java。所以我能够得到div我想要索引并获得所有文本。如果你愿意，我可以分享例子。您有什么疑问，也许我可以帮助您？

如果您想要一个真正的索引服务，它会非常有效。如果您只想将 HTML 存储在数据库中，那么 Lucene 可能不是您的选择。

很酷，这正是我使用它的目的。看看我的编辑。我发布了一个指向我的项目的链接。我使用 jsoup 来获取网页的所有文本。我实际上是在解析 wiki 页面的内容，然后将内容编入索引以供稍后搜索。您可以忽略 NlpService 类。那只是解析名词和动词，所以我可以有更好的准确性。这有帮助吗？ (2认同)
我使用 Jsoup 拉取所有文本，然后使用 lucene 对文本进行索引。这使我能够搜索包含某些关键字的所有文档。如果您不需要索引服务，则不要使用 lucene。您可以使用常规数据库，应该没问题。我仍然对您想对页面做什么感到困惑。以后需要搜索吗？如果您不需要存储它，那么您要做什么？ (2认同)
我认为是这样，那么 lucene 将适合您。你真的和我做的一样。获取所有 HTML，使用 jsoup 对其进行解析，使用 lucene 对其进行索引并将其存储在某处。然后使用 lucene 阅读它并搜索您想要搜索的内容。您还必须将 url 存储在 lucene 中，以便您稍后知道它的来源。您不必存储内容，只需设置 index=true 和 store=false。 (2认同)