Ans*_*nsh 4 java string stop-words
我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记.我有一个单独的文件,其中包含所有的停用词.我需要做的是任何工作作为分隔符字(停用词)的来标记输入字符串.例如.
如果文件中包含禁用词作为
一个
是
和
的
那
和输入字符串来是
"的计算机集群由一组协同工作的松散连接的计算机的"
的输出变成
计算机集群由
设置
松散连接的计算机
一起工作
以递归方式检查所有停用词的字符串会非常耗时吗?这有什么好方法吗?
构造表单的正则表达式
delim1|delim2|delim3
Run Code Online (Sandbox Code Playgroud)
然后使用String的split()方法通过任何分隔符分割文本.
为了构造正则表达式,请读取每个分隔符,并Pattern.quote在附加到您构建的正则表达式之前将其传递给它.这将使您的分隔符也使用正则表达式元字符.