我正在使用主题可视化库 LDAvis:
## visualization of the topics
import pyLDAvis
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)
Run Code Online (Sandbox Code Playgroud)
它生成 LDA(潜在狄利克雷分配)模型揭示的主题的主成分图像。我想下载图像,但我卡住了。任何帮助非常感谢!
我使用 gensim 训练了一个 LDA 模型。我的印象是 Lda 将数据减少到两个较低级别的矩阵(参考:https: //www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/)但是我似乎无法弄清楚如何访问术语主题矩阵。我在 gensim 的文档中找到的唯一参考是 .get_topics() 属性,但是它提供的格式对我来说没有意义。
应用转换来检索文档主题矩阵很容易,如下所示:
doc_topic_matrix = lda_model[doc_term_matrix]
Run Code Online (Sandbox Code Playgroud)
所以我希望有一种类似的功能方法来生成主题项矩阵。
理想情况下,输出应如下所示:
word1 word2 word3 word4 word5
topic_a .12 .38 .07 .24 .19
topic_b .41 .11 .04 .14 .30
Run Code Online (Sandbox Code Playgroud)
关于这是否可能有什么想法吗?
我使用此代码https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/来查找数据集的主题一致性。当我用相同数量的主题尝试这段代码时,每次运行后我都会得到新的值。比如题目数=10,运行2次后得到如下值:
First Run for the number of topic =10 Coherence Score CV_1: 0.31230269562327095
一致性分数 UMASS_1:-3.3065236823786064
第二次运行主题数=10 Coherence Score CV_2:0.277016662550274
一致性分数 UMASS_2:-3.6146150653617743
是什么原因?在这种不稳定的情况下,我们如何信任这个库?最高相干值也发生了变化。
我想获得符号(单词字母)的二元组。例如,对于单词“done”和“dog”,我希望能够找到双字词“do”。
我尝试使用 gensim.Phrases 来做到这一点,但它对我不起作用。
这是我的代码:
from gensim.models import Phrases
documents = ["God", "Good","happy","hangry","pypi"]
documents_proc = [list(doc) for doc in documents]
bigram = Phrases(documents_proc, min_count=1)
trigram = Phrases(bigram[documents_proc], min_count=1)
for sent in documents_proc:
print(sent, bigram[sent])
bigrams_ = [b for b in bigram[sent] if b.count('_') == 1]
trigrams_ = [t for t in trigram[bigram[sent]] if t.count('_') == 2]
print(bigrams_)
print(trigrams_)
print()
Run Code Online (Sandbox Code Playgroud)
我期望输出['Go', 'od', 'ha', 'py'],但输出
中没有任何内容。我究竟做错了什么?
谢谢你。
pip install --upgrade gensim使用来自https://pypi.org/project/gensim/的命令
任何人都知道可能会导致此问题的原因是什么?
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2019\\Community\\VC\\Tools\\MSVC\\14.28.29910\\bin\\HostX86\\x64\\cl.exe' failed with exit code 2
----------------------------------------
ERROR: Failed building wheel for gensim
Running setup.py clean for gensim
Failed to build gensim
Installing collected packages: gensim
Running setup.py install for gensim ... error
ERROR: Command errored out with exit status 1:
command: 'c:\users\appdata\local\programs\python\python39\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\Andreea Elena\\AppData\\Local\\Temp\\pipinstall-khjrriwd\\gensim_18d18388d198487b8f7aebdfc3c97b94\\setup.py'"'"'; __file__='"'"'C:\\Users\\AppData\\Local\\Temp\\pip-install-khjrriwd\\gensim_18d18388d198487b8f7aebdfc3c97b94\\stup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' install --record 'C:\Users\AppData\Local\Temp\pip-record-c7348b68\install-record.txt' --single-version-externally-managed --compile --install-headers 'c:\users\appdata\local\programs\python\python39\Iclude\gensim'```
Run Code Online (Sandbox Code Playgroud) 我正在使用 NLP 进行文本分析。我的任务是:阅读PDF内容并进行摘要。我使用了这个: from gensim.summarization import summarise 但出现错误:我在 Google collab 和其他地方都尝试过。ModuleNotFoundError:没有名为“gensim.summarization”的模块
想要解决这个问题。