巧妙地构建标签云? - Python

Rad*_*Hex 4 python django indexing data-mining keyword

我已经构建了一个内容聚合器,并希望添加一个代表当前趋势的标签云.

不幸的是,这非常复杂,因为我必须寻找代表每篇文章背景的关键字.

例如,像I,was,the,amazing,nice等单词与上下文无关.


非常感谢帮助!:)

Ale*_*lli 9

使用NLTK,特别是其Stopwords语料库:

除了常规内容词之外,还有另一类称为停用词的词,它们执行重要的语法功能,但不太可能自己有趣.这些包括介词,补语和决定者.NLTK捆绑了Stopwords语料库,这是一个包含11种不同语言(包括英语)的2400个单词的列表.

  • @Radiant,形容词不是停顿词,因为它们确实传达了意义 - 例如,"长城"在中国是一个非常具体的长墙,而"The Wall"是Pink Floyd的专辑 - 等等.如果你想跳过形容词(一个可疑的决定),使用NLTK进行"词性标注",根据http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part -1 /(当然也读第2和第3部分). (2认同)