使用空白标记器时删除逗号

Dio*_*ian 5 elasticsearch

当使用空白标记器时,诸如“他在”的文本。将被拆分为“有”,“他”和“是”。自然,我想删除那些标准标记化工具会自动删除的标点符号。

我的问题是:

  1. 如何修剪这些标点符号?(在elasticsearch设置中,例如添加另一个令牌过滤器或charfilter)
  2. 我需要使用空白令牌生成器,主要是因为我不想分割连字符。有什么方法可以在仍然使用标准标记器的情况下实现这一目标?

Ris*_*edi -3

您可以使用 split() 删除所有标点符号

String str ="there, he is.";
String[] ss = str.split("[ ,.]");   
for (String string : ss) {
System.out.println(string);
}
Run Code Online (Sandbox Code Playgroud)

试试这个,这会对你有帮助