我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。
是否有这两个函数所有支持的语言的列表?有没有一种方法可以使用其他语料库来包含这些语言?
小智 14
NLTK 分词器支持的语言列表如下:
它对应于存储在 C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt 中的 pickles(在 Windows 中)。这是您在标记化时使用“语言”键输入的内容,例如
nltk.word_tokenize(text, language='italian')
Run Code Online (Sandbox Code Playgroud)