我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).
我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:
"尝试汉堡包"(在44条评论中)
例如,本页的"评论亮点"部分:
http://www.yelp.com/biz/sushi-gen-los-angeles/
我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.
我之前已经问了一个类似的问题,但我已经知道我有很大的限制:我正在研究小文本集,例如用户推文以生成标签(关键字).
似乎已接受的建议(逐点互信息算法)意味着可以处理更大的文档.
有了这个约束(处理一小组文本),我该如何生成标签?
问候
我在一组文档上使用Gensim HDP模块.
>>> hdp = models.HdpModel(corpusB, id2word=dictionaryB)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> hdp = models.HdpModel(corpusA, id2word=dictionaryA)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> len(corpusA)
1113
>>> len(corpusB)
17
Run Code Online (Sandbox Code Playgroud)
为什么主题数量与语料库长度无关?
我目前正在尝试用Java实现标记引擎,并搜索从文本(文章)中提取关键字/标记的解决方案.我在stackoverflow上找到了一些建议使用Pointwise Mutual Information的解决方案.
我不能使用pyton和nltk所以我必须自己实现它.但我不知道如何计算概率.等式看起来像这样:
PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]
Run Code Online (Sandbox Code Playgroud)
我想知道的是如何计算P(term,doc)
我已经有一个lange文本语料库和一组文章.这些文章不是语料库的一部分.语料库用lucene索引.
请帮帮我.最好的祝福.
我试图在Gensim中获得LDA模型的最佳主题数.我发现的一种方法是计算每个模型的对数似然,并将每个模型相互比较,例如,使用潜在Dirichlet分配的输入参数
因此,我研究了使用Gensim计算LDA模型的对数似然性,并得出以下文章:您如何估计潜在Dirichlet分配模型的α参数?
这基本上说明update_alpha()方法实现了黄,乔纳森所描述的方法.Dirichlet分布参数的最大似然估计.我仍然不知道如何在不更改代码的情况下使用libary获取此参数.
如何使用Gensim从LDA模型获取对数似然?
有没有更好的方法来获得Gensim的最佳主题数量?
它的行为应该像Firefox的Delicious工具栏一样; 它列出了可以点击的标签.效果如下:

代码应该能够找到文本的关键词.任何好的算法或开源项目推荐?
我找到了这篇文章,但对于我的具体需求来说有点过于笼统.
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)
Run Code Online (Sandbox Code Playgroud)
我可以使用哪些库来完成NLP的上述任何功能吗?
真的不想向AlchemyAPI出钱