部分语音标记 - 从哪里开始？

Question

您好我想知道如何实现这样一个任务的解决方案:

有一个500Mb的普通英文文本.

我想收集关于单词频率的统计数据,但另外要确保每个单词都被正确识别(或大多数单词).

根据句子中的"哭","她给出一个响亮的CRY"将被归类为名词,"不要哭"将给动词统计.

此外,最好过滤正确的名称,以便他们形成另一个字典.

另一项任务将更加困难.我想找到经常聚集在一起的单词的出现,并建立这种出现的列表.

让我们说,"绿草","美丽的女孩","小心处理","你是对的".因此,我们可以准确地说,在语言中经常使用哪些单词序列.

我怎么开始？是否有关于这个主题的开放Java工具和好书？

Answer 1