Ped*_*ñoz 6 python text-mining stanford-nlp
我用Stanford POS Tagger标记西班牙语文本(通过Python中的NLTK).
这是我的代码:
import nltk
from nltk.tag.stanford import POSTagger
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar')
spanish_postagger.tag('esta es una oracion de prueba'.split())
Run Code Online (Sandbox Code Playgroud)
结果是:
[(u'esta', u'pd000000'),
(u'es', u'vsip000'),
(u'una', u'di0000'),
(u'oracion', u'nc0s000'),
(u'de', u'sp000'),
(u'prueba', u'nc0s000')]
Run Code Online (Sandbox Code Playgroud)
我想知道在哪里可以找到pd000000,vsip000,di0000,nc0s000,sp000的确切含义?
Jon*_*ier 10
这是AnCora树库中使用的标记集的简化版本.您可以在此处找到他们的标签集文档:https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html
"简化"包括将许多最终字段归零,这些字段不严格地属于词性标记.例如,我们的词性标注器将始终为0原始标记集的NER字段提供null()值(请参阅EAGLES名词文档).
简而言之:我们的标记器生成的POS标签中的字段与AnCora POS字段完全对应,但很多字段都是空的.对于大多数实际用途,您只需要查看标记的前2-4个字符.第一个字符始终表示广泛的POS类别,第二个字符表示某种类型的子类型.
我们正在编写一些介绍文档,以便将CoreNLP使用西班牙语(这意味着要理解这些标记,以及其他许多内容).目前,您可以在我们的技术文档的第一页上找到更多信息.