小编arr*_*sky的帖子

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).

我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:

"尝试汉堡包"(在44条评论中)

例如,本页的"评论亮点"部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.

nlp text-extraction text-analysis nltk

63
推荐指数
4
解决办法
5万
查看次数

标签 统计

nlp ×1

nltk ×1

text-analysis ×1

text-extraction ×1