相关疑难解决方法(0)

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).

我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:

"尝试汉堡包"(在44条评论中)

例如,本页的"评论亮点"部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.

nlp text-extraction text-analysis nltk

63
推荐指数
4
解决办法
5万
查看次数

从小文本内容(如推文)生成标记

我之前已经问了一个类似的问题,但我已经知道我有很大的限制:我正在研究小文本集,例如用户推文以生成标签(关键字).

似乎已接受的建议(逐点互信息算法)意味着可以处理更大的文档.

有了这个约束(处理一小组文本),我该如何生成标签?

问候

twitter nlp text-extraction text-analysis nltk

15
推荐指数
1
解决办法
3972
查看次数

分层Dirichlet过程Gensim主题编号独立于语料库大小

我在一组文档上使用Gensim HDP模块.

>>> hdp = models.HdpModel(corpusB, id2word=dictionaryB)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> hdp = models.HdpModel(corpusA, id2word=dictionaryA)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> len(corpusA)
1113
>>> len(corpusB)
17
Run Code Online (Sandbox Code Playgroud)

为什么主题数量与语料库长度无关?

python nlp lda gensim

14
推荐指数
4
解决办法
8222
查看次数

如何从文本中提取关键字(标签)

我目前正在尝试用Java实现标记引擎,并搜索从文本(文章)中提取关键字/标记的解决方案.我在stackoverflow上找到了一些建议使用Pointwise Mutual Information的解决方案.

解决方案1

解决方案2

我不能使用pyton和nltk所以我必须自己实现它.但我不知道如何计算概率.等式看起来像这样:

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]
Run Code Online (Sandbox Code Playgroud)

我想知道的是如何计算P(term,doc)

我已经有一个lange文本语料库和一组文章.这些文章不是语料库的一部分.语料库用lucene索引.

请帮帮我.最好的祝福.

tags nlp keyword nltk

6
推荐指数
1
解决办法
6872
查看次数

使用Gensim获得LDA模型的最佳主题数的最佳方法是什么?

我试图在Gensim中获得LDA模型的最佳主题数.我发现的一种方法是计算每个模型的对数似然,并将每个模型相互比较,例如,使用潜在Dirichlet分配的输入参数

因此,我研究了使用Gensim计算LDA模型的对数似然性,并得出以下文章:您如何估计潜在Dirichlet分配模型的α参数?

这基本上说明update_alpha()方法实现了黄,乔纳森所描述的方法.Dirichlet分布参数的最大似然估计.我仍然不知道如何在不更改代码的情况下使用libary获取此参数.

如何使用Gensim从LDA模型获取对数似然?

有没有更好的方法来获得Gensim的最佳主题数量?

python text-mining lda gensim topic-modeling

6
推荐指数
2
解决办法
4387
查看次数

如何从给定文本中自动识别标签(关键字)?

它的行为应该像Firefox的Delicious工具栏一样; 它列出了可以点击的标签.效果如下:

在此输入图像描述

代码应该能够找到文本的关键词.任何好的算法或开源项目推荐?

我找到了这篇文章,但对于我的具体需求来说有点过于笼统.

algorithm full-text-search text-analysis

5
推荐指数
1
解决办法
4285
查看次数

有关以下自然语言处理条款的详细信息?

Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)
Run Code Online (Sandbox Code Playgroud)

我可以使用哪些库来完成NLP的上述任何功能吗?

真的不想向AlchemyAPI出钱

text-processing nlp libraries

4
推荐指数
1
解决办法
447
查看次数