我在尝试访问 jupyter 笔记本中的 gensims mallet 时遇到错误。我在与我的笔记本相同的文件夹中有指定的文件“mallet”,但似乎无法访问它。我尝试从 C 驱动器路由到它,但仍然遇到相同的错误。请帮忙 :)
import os
from gensim.models.wrappers import LdaMallet
#os.environ.update({'MALLET_HOME':r'C:/Users/new_mallet/mallet-2.0.8/'})
mallet_path = 'mallet' # update this path
ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus, num_topics=20, id2word=dictionary)
result = (ldamallet.show_topics(num_topics=3, num_words=10,formatted=False))
for each in result:
print (each)Run Code Online (Sandbox Code Playgroud)
感谢您的光临!我有一个关于附加停用词的快速问题。我在我的数据集中有一些选择的词,我想我可以将它们添加到 gensims 停用词列表中。我已经看到很多使用 nltk 的例子,我希望有一种方法可以在 gensim 中做同样的事情。我将在下面发布我的代码:
def preprocess(text):
result = []
for token in gensim.utils.simple_preprocess(text):
if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
nltk.bigrams(token)
result.append(lemmatize_stemming(token))
return resultRun Code Online (Sandbox Code Playgroud)