假设您有一个类似这样的文本文件:http: //www.gutenberg.org/files/17921/17921-8.txt
有没有人有一个好的算法或开源代码从文本文件中提取单词?如何获取所有单词,同时避免使用特殊字符,并保留"它是"等内容......
我在Java工作.谢谢
Tom*_*lak 17
这听起来像是正则表达式的正确工作.这里有一些Java代码可以为您提供一个想法,以防您不知道如何开始:
String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);
while ( m.find() ) {
System.out.println(input.substring(m.start(), m.end()));
}
Run Code Online (Sandbox Code Playgroud)
该模式[\w']+多次匹配所有单词字符和撇号.示例字符串将逐字打印.查看Java Pattern类文档以阅读更多内容.
| 归档时间: |
|
| 查看次数: |
25843 次 |
| 最近记录: |