Rug*_*man 6 lucene twitter tokenize
我的问题简而言之:有没有人知道Lucene 的TwitterAnalyzer或TwitterTokenizer?
更详细的版本:
我想索引号在Lucene的鸣叫,并保持类似的条款@user或#hashtag完好.StandardTokenizer不起作用,因为它丢弃了标点符号(但它还有其他有用的东西,比如保留域名,电子邮件地址或识别首字母缩略词).我怎样才能拥有一台分析仪,它可以完成StandardTokenizer所做的一切,但不会触及像@user和#hashtag这样的术语?
我目前的解决方案是在将推文发送到分析器之前对其进行预处理,并用其他字母数字字符串替换字符.例如,
String newText = newText.replaceAll("#", "hashtag");
newText = newText.replaceAll("@", "addresstag");
Run Code Online (Sandbox Code Playgroud)
不幸的是,这种方法破坏了合法的电子邮件地址,但我可以忍受 这种方法有意义吗?
提前致谢!
AMAC
| 归档时间: |
|
| 查看次数: |
3063 次 |
| 最近记录: |