从文本文件中提取单词

Question

从文本文件中提取单词

Nat*_*n H 10 java text

假设您有一个类似这样的文本文件:http: //www.gutenberg.org/files/17921/17921-8.txt

有没有人有一个好的算法或开源代码从文本文件中提取单词？如何获取所有单词,同时避免使用特殊字符,并保留"它是"等内容......

我在Java工作.谢谢

Answer 1

Tom*_*lak 17

这听起来像是正则表达式的正确工作.这里有一些Java代码可以为您提供一个想法,以防您不知道如何开始:

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

Run Code Online (Sandbox Code Playgroud)

该模式[\w']+多次匹配所有单词字符和撇号.示例字符串将逐字打印.查看Java Pattern类文档以阅读更多内容.

归档时间：	17 年，4 月前
查看次数：	25843 次
最近记录：	10 年，7 月前