如何从给定文本中自动识别标签(关键字)?

lka*_*htz 5 algorithm full-text-search text-analysis

它的行为应该像Firefox的Delicious工具栏一样; 它列出了可以点击的标签.效果如下:

在此输入图像描述

代码应该能够找到文本的关键词.任何好的算法或开源项目推荐?

我找到了这篇文章,但对于我的具体需求来说有点过于笼统.

vik*_*sit 7

我想你正在寻找其中一个答案,

简而言之 - 您希望从文本中提取unigrams,以某种方式表示其中的概念 - 执行此操作的技术称为Pointwise Mutual Information,在前两个链接中以示例进行说明.使用Python NLTK框架(已经内置了许多这些算法)可能是您工作的最佳起点.

祝好运!