如果我有一个包含例如加泰罗尼亚语报纸文章的文本,我怎么能从该文本中找到所有城市?
我一直在寻找用于python的包nltk,我已经下载了加泰罗尼亚语语料库(nltk.corpus.cess_cat).
我现在拥有的:我已经从nltk.download()安装了所有必需的东西.我现在所拥有的一个例子:
te = nltk.word_tokenize('Tots els gats son de Sant Cugat del Valles.')
nltk.pos_tag(te)
Run Code Online (Sandbox Code Playgroud)
这个城市是'Sant Cugat del Valles'.我从输出中得到的是:
[('Tots', 'NNS'),
('els', 'NNS'),
('gats', 'NNS'),
('son', 'VBP'),
('de', 'IN'),
('Sant', 'NNP'),
('Cugat', 'NNP'),
('del', 'NN'),
('Valles', 'NNP')]
Run Code Online (Sandbox Code Playgroud)
NNP似乎表示名字的第一个字母是大写的名词.有没有办法获得地方或城市,而不是所有的名字?谢谢