我知道我可以标注一个句子,让每个单词的引理,但我不知道该怎么做,如果我只是想lemmatize一个单一的词.我试过了
Annotation tokenAnnotation = new Annotation("wedding");
List<CoreMap> list = tokenAnnotation.get(SentencesAnnotation.class);
String tokenLemma = list
.get(0).get(TokensAnnotation.class)
.get(0).get(LemmaAnnotation.class);
Run Code Online (Sandbox Code Playgroud)
但tokenAnnotation只有一把TextAnnotation钥匙,这意味着list将在null这里.
那么我怎样才能将一个单词列为单词呢?
我想对Spark-Scala中的大量文本数据应用预处理阶段,例如Lemmatization - Remove Stop Words(使用Tf-Idf) - POS标记,有什么方法可以在Spark中实现它们 - Scala?
例如,这是我的数据的一个示例:
The perfect fit for my iPod photo. Great sound for a great price. I use it everywhere. it is very usefulness for me.
Run Code Online (Sandbox Code Playgroud)
预处理后:
perfect fit iPod photo great sound great price use everywhere very useful
Run Code Online (Sandbox Code Playgroud)
他们有POS标签,例如 (iPod,NN) (photo,NN)
有一个POS标签(sister.arizona)是否适用于Spark?