Shr*_*ath 10 lucene
我想在Lucene中从html索引文本,实现这一目标的最佳方法是什么? 有什么好的Contrib模块可以在Lucene中做到这一点吗?
编辑 终于使用了Jericho Parser.它不会创建DOM并且易于使用.
baj*_*ife 7
我假设您实际上并不想索引HTML标记.如果是这种情况,您可以先使用Apache Tika从HTML中提取文本.然后,您可以索引Lucene中的文本.
rem*_*emo 6
我建议使用Jsoup HTML解析器来提取文本,然后使用Lucene.它对我很有用.
归档时间:
14 年,9 月 前
查看次数:
6121 次
最近记录:
8 年,11 月 前