我有这个文本文件,我读入Java应用程序,然后逐行计算其中的单词.现在我正在将这些行分成一个单词
String.split([\\p{Punct}\\s+])"
Run Code Online (Sandbox Code Playgroud)
但我知道我错过了文本文件中的一些单词.例如,"不能"这个词应该分成两个词"can"和"t".
应完全忽略逗号和其他标点符号,并将其视为空格.我一直试图理解如何形成一个更精确的正则表达式来做到这一点,但我是一个新手,所以我需要一些帮助.
对于我描述的目的,什么可以是更好的正则表达式?