是的!我已经完成了这件事。我使用JSOUP和 Lucene 来获取 HTML 页面以索引内容。JSOUP是一个类似于 jQuery 的库,除了 java。所以我能够得到div我想要索引并获得所有文本。如果你愿意,我可以分享例子。您有什么疑问,也许我可以帮助您?
编辑:这是我之前做过的一个项目的例子https://github.com/amir20/iAuthor/blob/master/wikitool/src/main/java/edu/gwu/raminfar/iauthor/wikitool/WikiTool。爪哇#L180
如果您想要一个真正的索引服务,它会非常有效。如果您只想将 HTML 存储在数据库中,那么 Lucene 可能不是您的选择。