标签: gensim

下载 LDAvis 库生成的图像

我正在使用主题可视化库 LDAvis:

## visualization of the topics
import pyLDAvis
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)
Run Code Online (Sandbox Code Playgroud)

它生成 LDA(潜在狄利克雷分配)模型揭示的主题的主成分图像。我想下载图像,但我卡住了。任何帮助非常感谢!

python ipython lda gensim

0
推荐指数
1
解决办法
2850
查看次数

访问 Gensim LDA 生成的术语主题矩阵

我使用 gensim 训练了一个 LDA 模型。我的印象是 Lda 将数据减少到两个较低级别的矩阵(参考:https: //www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/)但是我似乎无法弄清楚如何访问术语主题矩阵。我在 gensim 的文档中找到的唯一参考是 .get_topics() 属性,但是它提供的格式对我来说没有意义。

应用转换来检索文档主题矩阵很容易,如下所示:

doc_topic_matrix = lda_model[doc_term_matrix]
Run Code Online (Sandbox Code Playgroud)

所以我希望有一种类似的功能方法来生成主题项矩阵。

理想情况下,输出应如下所示:

         word1  word2  word3  word4  word5
topic_a   .12    .38    .07    .24    .19
topic_b   .41    .11    .04    .14    .30
Run Code Online (Sandbox Code Playgroud)

关于这是否可能有什么想法吗?

python lda gensim

0
推荐指数
1
解决办法
1411
查看次数

Gensim LDA:运行之间不可重现的一致性值

我使用此代码https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/来查找数据集的主题一致性。当我用相同数量的主题尝试这段代码时,每次运行后我都会得到新的值。比如题目数=10,运行2次后得到如下值:

First Run for the number of topic =10 Coherence Score CV_1: 0.31230269562327095

一致性分数 UMASS_1:-3.3065236823786064

第二次运行主题数=10 Coherence Score CV_2:0.277016662550274

一致性分数 UMASS_2:-3.6146150653617743

是什么原因?在这种不稳定的情况下,我们如何信任这个库?最高相干值也发生了变化。

lda gensim

0
推荐指数
1
解决办法
1464
查看次数

Gensim 短语找不到一些二元组

我想获得符号(单词字母)的二元组。例如,对于单词“done”和“dog”,我希望能够找到双字词“do”。

我尝试使用 gensim.Phrases 来做到这一点,但它对我不起作用。

这是我的代码:

from gensim.models import Phrases

documents = ["God", "Good","happy","hangry","pypi"]
documents_proc = [list(doc) for doc in documents]

bigram = Phrases(documents_proc, min_count=1)
trigram = Phrases(bigram[documents_proc], min_count=1)

for sent in documents_proc:
    print(sent, bigram[sent])
    bigrams_ = [b for b in bigram[sent] if b.count('_') == 1]
    trigrams_ = [t for t in trigram[bigram[sent]] if t.count('_') == 2]
    print(bigrams_)
    print(trigrams_)
    print()
Run Code Online (Sandbox Code Playgroud)

我期望输出['Go', 'od', 'ha', 'py'],但输出 中没有任何内容。我究竟做错了什么?

谢谢你。

python phrase gensim

0
推荐指数
1
解决办法
1651
查看次数

使用pip install安装gensim时出错

pip install --upgrade gensim使用来自https://pypi.org/project/gensim/的命令 任何人都知道可能会导致此问题的原因是什么?

error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2019\\Community\\VC\\Tools\\MSVC\\14.28.29910\\bin\\HostX86\\x64\\cl.exe' failed with exit code 2
  ----------------------------------------
  ERROR: Failed building wheel for gensim
  Running setup.py clean for gensim
Failed to build gensim
Installing collected packages: gensim
    Running setup.py install for gensim ... error
    ERROR: Command errored out with exit status 1:
     command: 'c:\users\appdata\local\programs\python\python39\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\Andreea Elena\\AppData\\Local\\Temp\\pipinstall-khjrriwd\\gensim_18d18388d198487b8f7aebdfc3c97b94\\setup.py'"'"'; __file__='"'"'C:\\Users\\AppData\\Local\\Temp\\pip-install-khjrriwd\\gensim_18d18388d198487b8f7aebdfc3c97b94\\stup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' install --record 'C:\Users\AppData\Local\Temp\pip-record-c7348b68\install-record.txt' --single-version-externally-managed --compile --install-headers 'c:\users\appdata\local\programs\python\python39\Iclude\gensim'```
Run Code Online (Sandbox Code Playgroud)

python gensim

0
推荐指数
1
解决办法
5033
查看次数

ModuleNotFoundError:没有名为“gensim.summarization”的模块

我正在使用 NLP 进行文本分析。我的任务是:阅读PDF内容并进行摘要。我使用了这个: from gensim.summarization import summarise 但出现错误:我在 Google collab 和其他地方都尝试过。ModuleNotFoundError:没有名为“gensim.summarization”的模块

想要解决这个问题。

python nlp summarization gensim

0
推荐指数
1
解决办法
4705
查看次数

标签 统计

gensim ×6

python ×5

lda ×3

ipython ×1

nlp ×1

phrase ×1

summarization ×1