小编sar*_*nes的帖子

查找文本中的所有位置/城市/地点

如果我有一个包含例如加泰罗尼亚语报纸文章的文本,我怎么能从该文本中找到所有城市？

我一直在寻找用于python的包nltk,我已经下载了加泰罗尼亚语语料库(nltk.corpus.cess_cat).

我现在拥有的:我已经从nltk.download()安装了所有必需的东西.我现在所拥有的一个例子:

te = nltk.word_tokenize('Tots els gats son de Sant Cugat del Valles.')

nltk.pos_tag(te)

Run Code Online (Sandbox Code Playgroud)

这个城市是'Sant Cugat del Valles'.我从输出中得到的是:

[('Tots', 'NNS'),
 ('els', 'NNS'),
 ('gats', 'NNS'),
 ('son', 'VBP'),
 ('de', 'IN'),
 ('Sant', 'NNP'),
 ('Cugat', 'NNP'),
 ('del', 'NN'),
 ('Valles', 'NNP')]

Run Code Online (Sandbox Code Playgroud)

NNP似乎表示名字的第一个字母是大写的名词.有没有办法获得地方或城市,而不是所有的名字？谢谢

python text-analysis corpus nltk tagged-corpus

sar*_*nes

2015 05-10

5
推荐指数

3
解决办法

2万
查看次数

标签统计

corpus ×1

nltk ×1

python ×1

tagged-corpus ×1

text-analysis ×1

查找文本中的所有位置/城市/地点

标签 统计

小编sar_nes的帖子

标签统计