我是NLTK和Python的新手.我一直在使用示例中给出的玩具语法创建句子解析,但我想知道是否可以使用从Penn Treebank的一部分学到的语法,而不是仅仅编写我自己的或使用玩具语法?(我在Mac上使用Python 2.7)非常感谢
我正在寻找一个免费标记的语料库,用于系统训练以进行命名实体识别.我找到的大多数(如"纽约时报")都很贵而且不开放.有人可以帮忙吗?
如果我有一个包含例如加泰罗尼亚语报纸文章的文本,我怎么能从该文本中找到所有城市?
我一直在寻找用于python的包nltk,我已经下载了加泰罗尼亚语语料库(nltk.corpus.cess_cat).
我现在拥有的:我已经从nltk.download()安装了所有必需的东西.我现在所拥有的一个例子:
te = nltk.word_tokenize('Tots els gats son de Sant Cugat del Valles.')
nltk.pos_tag(te)
Run Code Online (Sandbox Code Playgroud)
这个城市是'Sant Cugat del Valles'.我从输出中得到的是:
[('Tots', 'NNS'),
('els', 'NNS'),
('gats', 'NNS'),
('son', 'VBP'),
('de', 'IN'),
('Sant', 'NNP'),
('Cugat', 'NNP'),
('del', 'NN'),
('Valles', 'NNP')]
Run Code Online (Sandbox Code Playgroud)
NNP似乎表示名字的第一个字母是大写的名词.有没有办法获得地方或城市,而不是所有的名字?谢谢
我正在使用布朗语料库.我想用一些方法打印出所有可能的标签及其名称(不仅仅是标签缩写).还有不少标签,有没有办法"简化"标签?通过简化我的意思是将两个非常相似的标签组合成一个并用另一个标签重新标记合并的单词?
我刚刚关注了NLTK第5章,tagged_words()中的'simplify_tags'参数似乎是出乎意料的.我使用Python 3.4,PyCharm和标准NLTK包.
In[4]: nltk.corpus.brown.tagged_words()
Out[4]: [('The', 'AT'), ('Fulton', 'NP-TL'), ...]
In[5]: nltk.corpus.brown.tagged_words(simplify_tags = True)
Traceback (most recent call last):
File "C:\Python34\lib\site-packages\IPython\core\interactiveshell.py", line 2883, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-5-c4f914e3e846>", line 1, in <module>
nltk.corpus.brown.tagged_words(simplify_tags = True)
TypeError: tagged_words() got an unexpected keyword argument 'simplify_tags'
Run Code Online (Sandbox Code Playgroud)
没有simplify_tags运行此函数没有问题.我感谢任何建议或意见.谢谢!
对于所有其他 NLTK 语料库,调用会corpus.raw()从文件中生成原始文本。例如:
>>> from nltk.corpus import webtext
>>> webtext.raw()[:10]
'Cookie Man'
Run Code Online (Sandbox Code Playgroud)
但是,当brown.raw()您打电话时,您会收到带标签的文本。
>>> from nltk.corpus import brown
>>> brown.raw()[:10]
'\n\n\tThe/at '
Run Code Online (Sandbox Code Playgroud)
我已经阅读了我能找到的所有文档,但似乎找不到明显的解释或获取未标记版本的方法。是否有理由对这个语料库进行标记而其他语料库没有?
我一直在使用许多不同的语料库进行自然语言处理,我一直在寻找一个用Wordnet Word Senses注释的语料库.
据我所知,这些信息可能没有大的语料库,因为语料库需要手动构建,但必须有一些东西可以解决.
此外,如果不存在语料库,是否至少存在一个带注释的ngram数据库(每个词的定义的百分比,或每个wordnet定义的数字计数,取决于词义的常见程度)是)?