使用NLTK 3.0中的Wordnet从Synset中提取Word

duh*_*ime 14 python nlp nltk wordnet

前段时间,SO上的某个人询问如何使用NLTK的wordnet包装器检索给定synset的单词列表.以下是建议的回复之一:

for synset in wn.synsets('dog'):
    print synset.lemmas[0].name
Run Code Online (Sandbox Code Playgroud)

使用NLTK 3.0运行此代码会产生TypeError: 'instancemethod' object is not subscriptable.

我尝试了以前提出的每个解决方案(上面链接的页面上描述的每个解决方案),但每个都会抛出错误.因此,我想问:是否可以使用NLTK 3.0打印单词列表?我会感谢别人可以就这个问题提出的任何建议.

πόδ*_*κύς 15

WordNet在NLTK 3.0中运行良好.您只是以错误的方式访问lemmas(和名称).试试这个:

>>> import nltk
>>> nltk.__version__
'3.0.0'
>>> from nltk.corpus import wordnet as wn
>>> for synset in wn.synsets('dog'):
    for lemma in synset.lemmas():
        print lemma.name()


dog
domestic_dog
Canis_familiaris
frump
dog
dog
cad
bounder
blackguard
...
Run Code Online (Sandbox Code Playgroud)

synset.lemmas是一种方法,没有__getitem__()方法(因此不可订阅).


小智 10

您还可以直接使用引理名称lemma_names():

>>> wordnet.synset('dog.n.1').lemma_names()
['dog', 'domestic_dog', 'Canis_familiaris']
Run Code Online (Sandbox Code Playgroud)

它适用于多种语言

>>>> wordnet.synset('dog.n.1').lemma_names(lang='jpn')
['??', '???', '??', '?', '??', '???']
Run Code Online (Sandbox Code Playgroud)


alv*_*vas 7

使用:

wn.synset('dog.n.1').name() 
Run Code Online (Sandbox Code Playgroud)

代替:

wn.synset('dog.n.1').name 
Run Code Online (Sandbox Code Playgroud)

因为NLTK改变了Synset属性以获取函数.请参阅https://github.com/nltk/nltk/commit/ba8ab7e23ea2b8d61029484098fd62d5986acd9c

这是适用于py3.x的NLTK API更改的良好列表:https://github.com/nltk/nltk/wiki/Porting-your-code-to-NLTK-3.0