标签: wsd

如何在NLTK中获得synset的wordnet感知频率?

根据文档,我可以在nltk中加载有意义的标记语料库:

>>> from nltk.corpus import wordnet_ic
>>> brown_ic = wordnet_ic.ic('ic-brown.dat')
>>> semcor_ic = wordnet_ic.ic('ic-semcor.dat')
Run Code Online (Sandbox Code Playgroud)

我还可以得到definition,pos,offset,examples因为这样的:

>>> wn.synset('dog.n.01').examples
>>> wn.synset('dog.n.01').definition
Run Code Online (Sandbox Code Playgroud)

但是如何从语料库中获取synset的频率?打破这个问题:

  1. 首先如何计算多次synset发生一个有感觉标记的语料库?
  2. 然后,下一步是将计数除以给定特定引理的所有同义词出现的计数总数.

python nlp nltk wordnet wsd

5
推荐指数
1
解决办法
5210
查看次数

NLP的停用词列表

he, she, it在执行NLP或IR/IE相关任务时,是否存在人们通常用于删除标点符号和关闭类词(例如)的停用词列表?

我一直在尝试使用gibbs采样进行主题建模,用于词义消歧,并且它不断地给出标点符号和高级概率,因为它们经常出现在语料库中.https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

nlp information-retrieval lda wsd topic-modeling

1
推荐指数
1
解决办法
4180
查看次数

标签 统计

nlp ×2

wsd ×2

information-retrieval ×1

lda ×1

nltk ×1

python ×1

topic-modeling ×1

wordnet ×1