相关疑难解决方法(0)

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).

我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:

"尝试汉堡包"(在44条评论中)

例如,本页的"评论亮点"部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.

nlp text-extraction text-analysis nltk

63
推荐指数
4
解决办法
5万
查看次数

从文本内容生成标记

我很好奇是否存在通过使用一些权重计算,出现率或其他工具从给定文本生成关键字/标签的算法/方法.

另外,如果您为此指出任何基于Python的解决方案/库,我将不胜感激.

谢谢

python tags nlp machine-learning nltk

45
推荐指数
3
解决办法
2万
查看次数

从小文本内容(如推文)生成标记

我之前已经问了一个类似的问题,但我已经知道我有很大的限制:我正在研究小文本集,例如用户推文以生成标签(关键字).

似乎已接受的建议(逐点互信息算法)意味着可以处理更大的文档.

有了这个约束(处理一小组文本),我该如何生成标签?

问候

twitter nlp text-extraction text-analysis nltk

15
推荐指数
1
解决办法
3972
查看次数

如何识别给定文本中的想法和概念

我正在开展一个项目,目前能够检测文本正文中何时提到某个主题/想法非常有用.例如,如果文本包含:

也许如果你告诉我一些关于琼斯先生的事情,那会有所帮助.如果我可以描述他的外表,甚至更好的照片,这也会很有用吗?

能够发现这个人要求拍摄琼斯先生的照片真是太棒了.我可以采取一种非常天真的方法,只是寻找"照片"或"照片"这个词,但如果他们写下这样的话,这显然是不好的:

请永远不要给我发一张琼斯先生的照片.

有谁知道从哪里开始这个?它甚至可能吗?

我已经研究了像nltk这样的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析是什么.任何可以让我离开的帮助都会很棒.

谢谢!

nlp artificial-intelligence text-mining nltk

9
推荐指数
1
解决办法
1614
查看次数