是否有Lucene的HTML分析器/标记器?

Shr*_*ath 10 lucene

我想在Lucene中从html索引文本,实现这一目标的最佳方法是什么?
有什么好的Contrib模块可以在Lucene中做到这一点吗?

编辑
终于使用了Jericho Parser.它不会创建DOM并且易于使用.

baj*_*ife 7

我假设您实际上并不想索引HTML标记.如果是这种情况,您可以先使用Apache Tika从HTML中提取文本.然后,您可以索引Lucene中的文本.


rem*_*emo 6

我建议使用Jsoup HTML解析器来提取文本,然后使用Lucene.它对我很有用.