相关疑难解决方法(0)

>>> hdp = models.HdpModel(corpusB, id2word=dictionaryB)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> hdp = models.HdpModel(corpusA, id2word=dictionaryA)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> len(corpusA)
1113
>>> len(corpusB)
17

Run Code Online (Sandbox Code Playgroud)

为什么主题数量与语料库长度无关？

python nlp lda gensim

use*_*er0

lucky-day

14
推荐指数

4
解决办法

8222
查看次数

如何从文本中提取关键字(标签)

我目前正在尝试用Java实现标记引擎,并搜索从文本(文章)中提取关键字/标记的解决方案.我在stackoverflow上找到了一些建议使用Pointwise Mutual Information的解决方案.

解决方案1

解决方案2

我不能使用pyton和nltk所以我必须自己实现它.但我不知道如何计算概率.等式看起来像这样:

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

Run Code Online (Sandbox Code Playgroud)

我想知道的是如何计算P(term,doc)

我已经有一个lange文本语料库和一组文章.这些文章不是语料库的一部分.语料库用lucene索引.

请帮帮我.最好的祝福.

tags nlp keyword nltk

Bau*_*kel

2017 05-23

6
推荐指数

1
解决办法

6872
查看次数

使用Gensim获得LDA模型的最佳主题数的最佳方法是什么？

我试图在Gensim中获得LDA模型的最佳主题数.我发现的一种方法是计算每个模型的对数似然,并将每个模型相互比较,例如,使用潜在Dirichlet分配的输入参数

因此,我研究了使用Gensim计算LDA模型的对数似然性,并得出以下文章:您如何估计潜在Dirichlet分配模型的α参数？

这基本上说明update_alpha()方法实现了黄,乔纳森所描述的方法.Dirichlet分布参数的最大似然估计.我仍然不知道如何在不更改代码的情况下使用libary获取此参数.

如何使用Gensim从LDA模型获取对数似然？

有没有更好的方法来获得Gensim的最佳主题数量？

python text-mining lda gensim topic-modeling

Aka*_*tor

lucky-day

6
推荐指数

2
解决办法

4387
查看次数

如何从给定文本中自动识别标签(关键字)？

它的行为应该像Firefox的Delicious工具栏一样; 它列出了可以点击的标签.效果如下:

在此输入图像描述

代码应该能够找到文本的关键词.任何好的算法或开源项目推荐？

我找到了这篇文章,但对于我的具体需求来说有点过于笼统.

algorithm full-text-search text-analysis

lka*_*htz

2017 05-23

5
推荐指数

1
解决办法

4285
查看次数

有关以下自然语言处理条款的详细信息？

Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

Run Code Online (Sandbox Code Playgroud)

我可以使用哪些库来完成NLP的上述任何功能吗？

真的不想向AlchemyAPI出钱

text-processing nlp libraries

wef*_*weg

2010 04-21

4
推荐指数

1
解决办法

447
查看次数