小编Pet*_*rby的帖子

我有一个GRE单词列表,我正在获取一个同义词列表.

for word in words:
    synsets = wordnet.synsets(word['name'])

    for synset in synsets:
        print synset.pos #prints part of speech

对于列表中的许多单词,我看到熟悉的词性,如动词,名词等.但是,我遇到了许多用"s"分类的单词.我不能为我的生活弄清楚"s"代表什么词性.我唯一能想到的是"s"代表"单数",但这不是语言分类的一部分.

例如,"admonitory"这个词是一个形容词.返回的两个同义词是"admonitory.s.01"和"admonitory.s.02".两者都将词性列为"s".

如果有人可以向我解释这一点,或者指出一些我可能找到答案的好资源的方向,我真的很感激.

我已经阅读了关于这个主题的NLTK文档,但没有在那里找到答案.

13
推荐指数

2
解决办法

5039
查看次数

我正在使用Gensim进行一些大规模的主题建模.我很难理解如何确定未见(非索引)文档的预测主题.例如:我有2500万个文档,我已经转换为LSA(和LDA)空间中的向量.我现在想弄清楚一个新文档的主题,我们称之为x.

根据Gensim文档,我可以使用:

topics = lsi[doc(x)]

其中doc(x)是将x转换为向量的函数.

然而,问题是上述变量主题返回一个向量.如果我将x与其他文档进行比较,该向量很有用,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相关的特定单词.

我错过了什么,或者Gensim没有这种能力？

谢谢,

编辑

拉斯曼斯有答案.

我能够通过使用以下方式显示主题:

for t in topics:
    print lsi.show_topics(t[0])

6
推荐指数

1
解决办法

1万
查看次数

nlp ×1

小编Pet_rby的帖子