我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).
我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:
"尝试汉堡包"(在44条评论中)
例如,本页的"评论亮点"部分:
http://www.yelp.com/biz/sushi-gen-los-angeles/
我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.
我很好奇是否存在通过使用一些权重计算,出现率或其他工具从给定文本生成关键字/标签的算法/方法.
另外,如果您为此指出任何基于Python的解决方案/库,我将不胜感激.
谢谢
我之前已经问了一个类似的问题,但我已经知道我有很大的限制:我正在研究小文本集,例如用户推文以生成标签(关键字).
似乎已接受的建议(逐点互信息算法)意味着可以处理更大的文档.
有了这个约束(处理一小组文本),我该如何生成标签?
问候
我正在开展一个项目,目前能够检测文本正文中何时提到某个主题/想法非常有用.例如,如果文本包含:
也许如果你告诉我一些关于琼斯先生的事情,那会有所帮助.如果我可以描述他的外表,甚至更好的照片,这也会很有用吗?
能够发现这个人要求拍摄琼斯先生的照片真是太棒了.我可以采取一种非常天真的方法,只是寻找"照片"或"照片"这个词,但如果他们写下这样的话,这显然是不好的:
请永远不要给我发一张琼斯先生的照片.
有谁知道从哪里开始这个?它甚至可能吗?
我已经研究了像nltk这样的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析是什么.任何可以让我离开的帮助都会很棒.
谢谢!